1、熟悉HTTP協(xié)議,熟悉網(wǎng)頁(yè)抓取原理,熟練掌握xpath、正則表達(dá)式等;2、精通python,有一定的HTML、JS基礎(chǔ);3、熟悉MongoDb、redis、Mysql等主流數(shù)據(jù)庫(kù);5,selenium, scrapy
曾參與開(kāi)發(fā)百度爬蟲(chóng)項(xiàng)目,微博爬蟲(chóng)項(xiàng)目,知乎爬蟲(chóng)項(xiàng)目,今日頭條爬蟲(chóng)項(xiàng)目,亞馬遜爬蟲(chóng)項(xiàng)目,360爬蟲(chóng)項(xiàng)目,B站爬蟲(chóng)項(xiàng)目,使用過(guò)cookies,header構(gòu)造,selenium模擬爬取等方式
有關(guān)b站爬蟲(chóng)功能,在項(xiàng)目中主要負(fù)責(zé)爬蟲(chóng)代碼的編寫(xiě),抓取B站相關(guān)數(shù)據(jù),獲取相關(guān)內(nèi)容,從頁(yè)面中提取相關(guān)文本
在百度爬蟲(chóng)項(xiàng)目中主要負(fù)責(zé)爬蟲(chóng)工程師,完成對(duì)百度相關(guān)數(shù)據(jù)的抓取和獲取,解析和保存,并存入數(shù)據(jù)庫(kù)或者execl
在百度爬蟲(chóng)項(xiàng)目中主要負(fù)責(zé)爬蟲(chóng)代碼的編寫(xiě),獲取百度頁(yè)面相關(guān)數(shù)據(jù),分析網(wǎng)頁(yè)結(jié)構(gòu),解析網(wǎng)頁(yè)結(jié)構(gòu)并存入數(shù)據(jù)庫(kù)
在百度爬蟲(chóng)項(xiàng)目中主要負(fù)責(zé)爬蟲(chóng)代碼的編寫(xiě),獲取百度頁(yè)面相關(guān)數(shù)據(jù),分析網(wǎng)頁(yè)結(jié)構(gòu),解析網(wǎng)頁(yè)結(jié)構(gòu)并存入數(shù)據(jù)庫(kù)