概要描述:從微信某公眾號(hào)內(nèi)的數(shù)據(jù)查詢程序中,爬取查詢結(jié)果,并將結(jié)果存儲(chǔ)在本地的文件中。
詳細(xì)需求:
通過(guò)訪問(wèn)固定的網(wǎng)絡(luò)地址,使用合法的賬號(hào)密碼登錄,通過(guò)驗(yàn)證后進(jìn)入查詢系統(tǒng)。
查詢系統(tǒng)中的功能非常簡(jiǎn)單,通過(guò)在本地Excel文件中讀取一條32位字符串,錄入到查詢框中,點(diǎn)擊查詢按鈕,獲取查詢結(jié)果。查詢結(jié)果有三種,第一種為獲得4行14個(gè)字符串的數(shù)據(jù),第二種為獲得12行14個(gè)字符串的數(shù)據(jù),第三種為查詢錯(cuò)誤。本地Excel文件中有多行數(shù)據(jù),需要爬蟲(chóng)程序不斷的循環(huán)查詢,直到Excel文件中最后一行數(shù)據(jù)為止。
將正確的查詢結(jié)果放置在新生成的excel文件中,分為兩列存放,一列為32位字符串,第二列為查詢后得到的14個(gè)字符串;將錯(cuò)誤的結(jié)果放置在txt文件中,只需將32位字符串記錄在此即可。
項(xiàng)目情況:
1、該公眾號(hào)所連接的數(shù)據(jù)查詢網(wǎng)站屬于上游供應(yīng)鏈廠家系統(tǒng),不存在爬取數(shù)據(jù)違規(guī)處罰的情況。
2、數(shù)據(jù)查詢網(wǎng)站使用.net開(kāi)發(fā),可通過(guò)定義瀏覽器header,脫離微信運(yùn)行。
3、數(shù)據(jù)查詢網(wǎng)站中有302跳轉(zhuǎn)和doPostBack方法,如開(kāi)發(fā)者對(duì)該方式爬取數(shù)據(jù)沒(méi)有經(jīng)驗(yàn),不建議接單。
4、查詢數(shù)據(jù)時(shí)需要間隔2秒,否則會(huì)出現(xiàn)頻繁查詢的情況。