數(shù)據(jù)處理及可視化;可使用Numpy、Pan" />
數(shù)據(jù)獲取:掌握python的應(yīng)用,熟悉Scrapy爬蟲框架,熟悉Selenium的使用,熟悉BS4、xpath、正則等頁面解析技術(shù),掌握一定逆向技術(shù),如app逆向、js逆向、hook注入。
數(shù)據(jù)處理及可視化;可使用Numpy、Pandas、Matplotlib、Pyecharts對(duì)數(shù)據(jù)進(jìn)行處理、清洗,再進(jìn)行數(shù)據(jù)可視化操作。
數(shù)據(jù)庫:掌握數(shù)據(jù)庫操作,具備對(duì)數(shù)據(jù)進(jìn)行查詢、提取的能力。
深度學(xué)習(xí):了解tensorflow使用,了解深度學(xué)習(xí)相關(guān)算法,如:LSTM、CNN、RNN等。
前端:了解 Html,Css,JavaScript 的語法規(guī)則,掌握Flask框架,能夠進(jìn)行網(wǎng)頁編寫。
項(xiàng)目簡介:采集社交平臺(tái)、新聞媒體信息,包括用戶信息、發(fā)布的文章、視頻信息、評(píng)論信息,模型預(yù)測是否會(huì)成為熱點(diǎn)事件,是否產(chǎn)生重大影響。
項(xiàng)目技術(shù)點(diǎn):python、requests、re、js逆向、app逆向。
個(gè)人職責(zé):
? 單向認(rèn)證、自定義協(xié)議app抓包,charles抓包分析
? 解決反爬,webpack、jsvmp等逆向分析,解決登錄獲取cookie
? 針對(duì)反爬蟲的策略,使用代理ip、用戶代理等技術(shù)反制
? 通過分析頁面結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)解析和清洗,將數(shù)據(jù)格式化保存
? 對(duì)數(shù)據(jù)進(jìn)行監(jiān)控和更新,確保數(shù)據(jù)的準(zhǔn)確性和及時(shí)性