1)熟練使用Linux命令、hdfs命令;
2)熟練使用hive編程,熟練使用hive sql;
3)熟悉Mysql/SQL Se" />
6年+開發(fā)經(jīng)驗(yàn),持續(xù)使用Python語言進(jìn)行數(shù)據(jù)分析和建模工作,主要的技術(shù)能力如下:
1)熟練使用Linux命令、hdfs命令;
2)熟練使用hive編程,熟練使用hive sql;
3)熟悉Mysql/SQL Server/Postgre等多種數(shù)據(jù)庫;
4)熟練使用Python的Numpy、Pandas、Matplotlib庫進(jìn)行數(shù)據(jù)分析建模;
5)掌握隨機(jī)森林、Xgboost、Adaboost、DBSCAN、K-means等機(jī)器學(xué)習(xí)算法,熟練使用keras、tensorflow等深度學(xué)習(xí)框架。
1、人流預(yù)測(cè)模型
開發(fā)工具:hive+pycharm+mysql
開發(fā)語言:hql+sql+python
項(xiàng)目描述:基于歷史人流數(shù)據(jù),以及節(jié)假日、天氣等多維度數(shù)據(jù)預(yù)測(cè)未來三小時(shí)人流量數(shù)據(jù)。解決旅游數(shù)據(jù)下發(fā)不準(zhǔn)確、延遲高等問題,先后支撐項(xiàng)目金額達(dá)千余萬。
主要職責(zé):
1)數(shù)據(jù)庫的搭建與開發(fā),天氣數(shù)據(jù)的爬取處理,并導(dǎo)入數(shù)據(jù)庫;
2)節(jié)假日數(shù)據(jù)標(biāo)注并形成one-hot編碼;
3)人流量預(yù)測(cè)模型的開發(fā)。(LSTM)
2、基于基站位置數(shù)據(jù)的人群運(yùn)動(dòng)駐留判別模型
開發(fā)工具:hive+jupyter
開發(fā)語言:hql+python
項(xiàng)目描述:基于基站位置數(shù)據(jù),判定用戶的運(yùn)動(dòng)靜止?fàn)顟B(tài),并找出其駐留點(diǎn)。解決基站數(shù)據(jù)切換快、干擾數(shù)據(jù)多、乒乓效應(yīng)強(qiáng)的問題,形成底層駐留表,支撐公司數(shù)百個(gè)項(xiàng)目。
主要職責(zé):
1)利用前后位置點(diǎn)形成的角度+駐留時(shí)間+連接次數(shù)對(duì)位置數(shù)據(jù)進(jìn)行過濾;
2)數(shù)據(jù)量少時(shí),采用geohash編碼算法判斷運(yùn)動(dòng)靜止;
3)數(shù)據(jù)量多時(shí),將時(shí)間維度考慮在內(nèi),采用DBSCAN建立聚類模型。
3、敏感人物及敏感標(biāo)識(shí)排查系統(tǒng)
開發(fā)工具:pycharm
項(xiàng)目描述:為電視臺(tái)采編、播出入庫等業(yè)務(wù)流程開發(fā)的目標(biāo)人臉和目標(biāo)標(biāo)識(shí)檢測(cè)識(shí)別系統(tǒng)。項(xiàng)目主要包括人臉識(shí)別和標(biāo)識(shí)識(shí)別兩部分,最終獲取收入200余萬元。
主要職責(zé):1)視頻切幀算法的開發(fā)與優(yōu)化;(OpenCV、FFmpeg)
2)人臉檢測(cè)部分的開發(fā);(SSD+MobileNet進(jìn)行人臉檢測(cè),Dlib進(jìn)行關(guān)鍵點(diǎn)定位)
3)人臉識(shí)別部分的開發(fā);(Inception-ResNet-V1、AMsoftmax算法對(duì)臉部圖像生成特征向量)
4)敏感標(biāo)識(shí)的標(biāo)注工作;(LabelImg)
5)敏感標(biāo)識(shí)識(shí)別算法的開發(fā)。(Yolo)
4、交通運(yùn)輸部交通大屏項(xiàng)目
開發(fā)工具:hive+pycharm
開發(fā)語言:hql+python
項(xiàng)目描述:以海量信令數(shù)據(jù)為基礎(chǔ),與國(guó)家發(fā)改委和交通運(yùn)輸部發(fā)布的日客運(yùn)量數(shù)據(jù)等官方數(shù)據(jù)融合,形成全國(guó)客流大數(shù)據(jù)監(jiān)測(cè)分析與決策支持平臺(tái),先后支撐3年,獲取收入200余萬元。
主要職責(zé):
1)負(fù)責(zé)制定春運(yùn)期間各項(xiàng)統(tǒng)計(jì)指標(biāo)口徑,如返程率、返鄉(xiāng)人口、空城率、復(fù)工率等等;
2)根據(jù)制定的口徑開發(fā)數(shù)十個(gè)數(shù)據(jù)模型,數(shù)據(jù)存儲(chǔ)在hive倉庫中;
3)將數(shù)據(jù)推送至mysql數(shù)據(jù)庫,實(shí)時(shí)監(jiān)測(cè)。
5、基于移動(dòng)通信大數(shù)據(jù)的災(zāi)區(qū)人口受災(zāi)情況評(píng)估方法研究
開發(fā)工具:hive+jupyter
開發(fā)語言:hql+python
項(xiàng)目描述:國(guó)家應(yīng)急管理部減災(zāi)中心課題,基于移動(dòng)通信大數(shù)據(jù)對(duì)地震、爆炸、煤礦失事、洪澇等災(zāi)害后相關(guān)地區(qū)做災(zāi)情統(tǒng)計(jì)分析,獲取收入近300萬元。
主要職責(zé):
1)人群基礎(chǔ)屬性統(tǒng)計(jì)分析;(年齡、性別、消費(fèi)狀況等屬性的分布)
2)受災(zāi)前后的人群屬性變化分析;(運(yùn)動(dòng)距離、上網(wǎng)流量、所關(guān)注APP類別的變化)
3)疑似傷亡人群統(tǒng)計(jì)分析;
4)疑似失聯(lián)人群統(tǒng)計(jì)分析;
5)撥打救援電話人群統(tǒng)計(jì);
6)人群聚集地統(tǒng)計(jì);(將受災(zāi)地區(qū)以500m半徑的六邊形柵格鋪滿,統(tǒng)計(jì)每個(gè)柵格的人流變化)
7)撰寫報(bào)告,項(xiàng)目完結(jié)良好。
項(xiàng)目描述:基于京東商城、中關(guān)村在線等網(wǎng)站手機(jī)及泛智能終端的價(jià)格、銷量,來輔助商戶決定要上架的商品及定價(jià)。 主要職責(zé): 1)爬蟲獲取京東商城、中關(guān)村在線等網(wǎng)站熱銷手機(jī)品牌、機(jī)型(按顏色內(nèi)存等屬性區(qū)分不同款)的銷量和價(jià)格信息; 2)爬蟲獲取京東熱銷泛智能終端品牌、型號(hào)的銷量和價(jià)
項(xiàng)目描述:基于位置大數(shù)據(jù),判定用戶的運(yùn)動(dòng)靜止?fàn)顟B(tài),并找出其駐留點(diǎn)。解決基站數(shù)據(jù)切換快、干擾數(shù)據(jù)多、乒乓效應(yīng)強(qiáng)的問題。 主要職責(zé): 1)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗等工作,包括填充空值、過濾臟數(shù)據(jù)等,過濾臟數(shù)據(jù)使用的方法包括前后位置點(diǎn)形成的角度限制、駐留時(shí)間限制、連接次數(shù)限制等;