1. 根據項目的需求抓取京東、天貓、淘寶的手機商品信息及評論人、評論時間、評論屬性。首先獲取網址,查詢該網站URL接口,使用requests模塊獲取網站源碼,在使用Beautifulsoup標簽定位來獲取瀏覽量和評論量及評論屬性,通過好評、中評、差評,來給評論屬性進行明確區(qū)分,根據評論分類進行排序,按項目需求存放到數據庫。抓取商品、評論及銷量數據,對各種商品及用戶的消費場景進行分析。
2. 設置定時任務進行抓取數據。將有價值的數據進行入庫,監(jiān)控日志信息?;赿jango + echarts做數據的可視化。構建自己爬取ip代理池或公司購買的穩(wěn)定ip代理,應對限制訪問頻率。定期維護代碼。用python的smtp定時發(fā)郵件匯報爬蟲獲取數據的情況。