● 熟悉Random Forest、GradientBoosting、Logistic Regressi" />
熟悉Pandas、Numpy、Matplotlib等數(shù)據(jù)分析常用庫的功能,進行數(shù)據(jù)操作、采集、處理、清洗、可視化、規(guī)整數(shù)據(jù)集;
● 熟悉Random Forest、GradientBoosting、Logistic Regression、K-Nearest Neighbors、Naive Bayes、Linear Regression、Support Vector Machines 等機器學(xué)習(xí)算法應(yīng)用;
● 熟悉常用數(shù)據(jù)結(jié)構(gòu)算法;
● 熟悉NLP中Word Segmentation、Filtering Words、Representation、Sentence Similarity、Noisy Channel Model、Language Model等方法原理;
● 對數(shù)據(jù)有較強的敏感度;
● 熟悉集成學(xué)習(xí)算法的模型選擇;
● 熟悉數(shù)據(jù)離散化操作;
● 熟悉特征工程;
● 理解TensorFlow深度學(xué)習(xí)框架的使用;
● 理解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò);
● 熟悉Github操作;
● 理解Hadoop、Hive;
● 熟悉MySQL、MongoDB、Redis數(shù)據(jù)庫的使用;
● 熟悉Python函數(shù)式編程;
● 熟悉Linux命令;
● 熟悉常見網(wǎng)站的反爬策略;
● 理解Scrapy爬蟲框架;
● 熟練掌握Python OOP開發(fā),編碼遵守PEP8規(guī)范;
項目一:對目標網(wǎng)站爬取分析生成報告
項目簡介:利用Scrapy框架編寫代碼對一些特定網(wǎng)站的數(shù)據(jù)進行抓取,然后將獲得的數(shù)據(jù)進行內(nèi)容分析,得到可用的數(shù)據(jù)后生成情報報告。
項目職責(zé):
1.從上級獲取目標網(wǎng)站。
2.分析網(wǎng)站結(jié)構(gòu)。
3.編寫爬蟲代碼,將數(shù)據(jù)存在本地。
4.針對報告格式編寫自動化生成報告程序。
項目二:對網(wǎng)站中的內(nèi)容進行分類
項目簡介:通過建立語言模型判斷目標網(wǎng)站內(nèi)容發(fā)布的信息是否有害,并將結(jié)果上報給相關(guān)部門。
項目職責(zé):
1.利用爬蟲搜集網(wǎng)站內(nèi)容。
2.通過分詞工具建立有害信息字典。
3.利用貝葉斯算法訓(xùn)練分類模型。
4.將結(jié)果輸出并上報。
項目三:基于平臺大學(xué)生用戶行為分析繪制用戶畫像
項目簡介:P2P借貸平臺的興起吸引了社會中各個層次人群加入其中,對于用戶群體分析發(fā)現(xiàn)許多年輕大學(xué)生活躍程度很高。為了分析大學(xué)生在目標客戶平臺借貸的行為特征,對大學(xué)生借貸、投資和生活行為制作用戶畫像。
項目職責(zé):
1. 提取用戶信用信息,定位目標用戶。
2. 分析提取用戶強相關(guān)信息,忽略弱相關(guān)信息。
3. 根據(jù)用戶信息為目標用戶打標簽。
通過爬蟲實現(xiàn)一個提取簡書網(wǎng)用戶數(shù)據(jù)的程序,實現(xiàn)從簡書網(wǎng)翻頁提取包括關(guān)注用戶數(shù)、粉絲數(shù)、文章數(shù)、字數(shù)、收獲喜歡、簡書鉆、文章內(nèi)容,將獲取的數(shù)據(jù)存儲到數(shù)據(jù)庫中。然后運用NLP分析工具對用戶文章進行分析使得給用戶貼上標簽,進而對簡書用戶進行分類。最后利用關(guān)鍵詞標簽生成詞云,將每個用戶的
通過爬蟲實現(xiàn)一個提取簡書網(wǎng)用戶數(shù)據(jù)的程序,實現(xiàn)從簡書網(wǎng)翻頁提取包括關(guān)注用戶數(shù)、粉絲數(shù)、文章數(shù)、字數(shù)、收獲喜歡、簡書鉆、文章內(nèi)容,將獲取的數(shù)據(jù)存儲到數(shù)據(jù)庫中。然后運用NLP分析工具對用戶文章進行分析使得給用戶貼上標簽,進而對簡書用戶進行分類。最后利用關(guān)鍵詞標簽生成詞云,將每個用戶的