2、熟練掌握Python語言,熟悉面向?qū)ο蟮乃枷?
3、熟悉Python多進程,多線程
4、熟悉Django、Flask框架,了解Tornado框架,熟悉MVC、MTV
5、" />
1、熟悉PEP8規(guī)范,代碼風(fēng)格良好
2、熟練掌握Python語言,熟悉面向?qū)ο蟮乃枷?
3、熟悉Python多進程,多線程
4、熟悉Django、Flask框架,了解Tornado框架,熟悉MVC、MTV
5、熟悉爬蟲框架Scrapy、分布式爬蟲框架Scrapy-Redis,熟悉Requests庫、XPath解析
6、熟悉Selenium庫,熟悉使用Selenium + Scrapy抓取動態(tài)網(wǎng)頁
7、熟悉使用Fiddler、Charles等抓包工具抓取移動端APP數(shù)據(jù)
8、熟悉常見的反爬蟲策略,有能力解決各種反爬限制
1、拉勾網(wǎng)爬蟲項目
項目描述:
該項目主要使用requests庫,爬取拉勾網(wǎng)一線城市Java、Python、PHP、UI設(shè)計、前端、數(shù)據(jù)分析、爬蟲、機器學(xué)習(xí)等崗位的職位要求、薪資狀況、公司名稱、地址、網(wǎng)址、規(guī)模等信息。
技術(shù)要點:
1、使用Chrome瀏覽器開發(fā)者工具分析js請求的request地址和response內(nèi)容
2、使用requests庫攜帶Request Headers發(fā)送請求破解反爬蟲
3、使用json模塊將json字符串轉(zhuǎn)化為字典,遍歷提取數(shù)據(jù)
4、使用openpyxl模塊將數(shù)據(jù)保存到excel文件中
5、使用logging模塊生成日志文件,便于排查錯誤
2、鏈家網(wǎng)爬蟲項目
項目描述:
該項目主要使用Scrapy框架,爬取一線城市各種二手房信息以及歷史成交記錄,數(shù)據(jù)保存至MySQL數(shù)據(jù)庫,存入excel中對各個城市的房價進行分析。
技術(shù)要點:
1、使用Selenium模擬用戶登錄、爬取js加載的動態(tài)網(wǎng)頁
2、使用Xpath進行頁面解析
3、使用Selenium模擬點擊下一頁的操作進行分頁爬取
4、通過使用隨機User-Agent破解反爬蟲
5、使用IP代理池,防止IP被封獲取不到數(shù)據(jù),影響效率
6、通過配置pipelines將數(shù)據(jù)存入MySQL數(shù)據(jù)庫
3、淘書閣
項目描述:
淘書閣是網(wǎng)絡(luò)紙質(zhì)書銷售平臺,該系統(tǒng)主要是應(yīng)用Django框架,搭建系統(tǒng)架構(gòu),網(wǎng)站主要功能包含用戶注冊、登錄、郵箱驗證、書籍展示、Xadmin后臺管理、商品評論、購物車、訂單管理、商品購買等。
項目職責(zé):
1、實現(xiàn)用戶的注冊登錄,郵箱驗證,密碼修改功能
2、實現(xiàn)首頁商品分頁展示,關(guān)鍵字查詢功能
3、實現(xiàn)購物車和支付功能
4、實現(xiàn)Xadmin后臺管理功能
技術(shù)要點:
1、使用Django框架,實現(xiàn)快速開發(fā)相關(guān)功能模塊
2、使用Django-Celery實現(xiàn)異步處理邏輯,如發(fā)送郵件,耗時操作等
3、使用Session檢驗用戶登錄情況
4、使用Django提供的Paginator類實現(xiàn)分頁功能
5、通過Ajax的方式更新購物車商品數(shù)量
6、使用Redis作為MySQL的緩存服務(wù)器,實現(xiàn)讀寫分離
7、通過安裝和配置Xadmin實現(xiàn)后臺管理功能