一:項(xiàng)目需求?
爬取的數(shù)據(jù)需要弄成網(wǎng)頁(yè)版
我們是需要爬取亞馬遜的數(shù)據(jù)
軟件的交接方式是網(wǎng)頁(yè)版跟源碼 需要會(huì)前端
1:爬蟲(chóng)的細(xì)節(jié)操作
1我們輸入一條鏈接他們實(shí)行爬取這條鏈接的所有數(shù)據(jù) 然后底下有5個(gè)跟賣(mài)商品然后再進(jìn)入這5個(gè)跟賣(mài)商品爬取里面的所有鏈接數(shù)據(jù) 最后經(jīng)過(guò)我們?cè)O(shè)置的規(guī)則進(jìn)行篩選!篩選出來(lái)以后的數(shù)據(jù)去美國(guó)商標(biāo)局查詢這個(gè)有沒(méi)有商標(biāo)
2需要對(duì)接IP池,爬數(shù)據(jù)的速度要控制在1秒以內(nèi)1條數(shù)據(jù),
然后一臺(tái)電腦可以多開(kāi)并發(fā)爬取數(shù)據(jù),爬蟲(chóng)需要穩(wěn)定和效率要達(dá)到我們所需要的效果?可以多電腦進(jìn)行
3然后需要做不同的站點(diǎn),所以版本不能夠固定。?
4 ip問(wèn)題 會(huì)遇到網(wǎng)址的反爬蟲(chóng) 會(huì)有驗(yàn)證碼?
5之前的程序員他遇到在公司可以運(yùn)行操作 但是在家里不行?
6 程序是并線進(jìn)行的 可以多開(kāi)程序?
7 呈現(xiàn)以網(wǎng)頁(yè)版的形式?
2:頁(yè)面的規(guī)則
1:在網(wǎng)頁(yè)版放鏈接 我們會(huì)設(shè)定規(guī)則進(jìn)行篩選(比如多少萬(wàn)名以內(nèi)的鏈接 比如多少評(píng)論以內(nèi)的鏈接)
2:篩選出來(lái)的數(shù)據(jù)對(duì)接到一個(gè)商標(biāo)局 然后進(jìn)去查詢他有沒(méi)有商標(biāo),如果沒(méi)有商標(biāo)的話就將這個(gè)數(shù)據(jù)保存到數(shù)據(jù)庫(kù) 等我們導(dǎo)出來(lái)!
3:所有的數(shù)據(jù)都可以進(jìn)行導(dǎo)出
二:接任務(wù)需求?
1需要是有經(jīng)驗(yàn)的人士來(lái)做這個(gè)項(xiàng)目?做過(guò)亞馬遜的優(yōu)先
2最好是全職的人員?