曾就職于愛奇藝,參與公司的推薦引擎,離線實時數(shù)據(jù)開發(fā),主要負(fù)責(zé)后端服務(wù),大數(shù)據(jù)離線實時數(shù)據(jù)開發(fā),機(jī)器學(xué)習(xí)算法調(diào)研與開發(fā)。熟悉python, java, scala, 熟悉flask, django, spring, springboot,spring cloud, dubbo等web后端服務(wù)框架, redis, celery, kafka, rabbitmq等消息隊列,spark, hadoop, hbase, hive等大數(shù)據(jù)工具,mysql, mongodb等數(shù)據(jù)庫,熟悉nginx, zookeeper等工具。熟悉常見的機(jī)器學(xué)習(xí)算法,并對深度學(xué)習(xí)算法有所研究。
1. 利用flask框架構(gòu)建 web 項目,讓數(shù)據(jù)分析程序在后臺運(yùn)行,并利用ajax和websocket結(jié)合echarts在前端顯示日志以及數(shù)據(jù)分析結(jié)果。
2. python自然語言處理,利用逆向匹配分詞算法以及 CRF 條件隨機(jī)場進(jìn)行中文分詞。
3. 利用 Doc2Vec 從 20000 份重復(fù)語料中找尋出 1 萬 1 千份相似度較低的語料。
4. Scala, Spark 計算月點擊率的歸一化得分,并將 結(jié)果 DataFrame 保存到 CSV 中。
5. 利用 django, material css 框架搭建金融知識圖譜前后端,實現(xiàn)命名體識別功能。利用 neo4j 構(gòu)建經(jīng)濟(jì)人物知識圖譜, 理解語義,實現(xiàn)可訂制化的搜索服務(wù)。利用 Elasticsearch, 結(jié)合 django 構(gòu)建搜索 restful api 服務(wù), 利用 logstash 同步數(shù)據(jù)庫,并利用 docker 搭建后端平臺。
6. 分布式后端項目,關(guān)聯(lián)機(jī)器人賬號,每天隨機(jī)發(fā)布一些內(nèi)容,服務(wù)端基于 celery 異步框架實現(xiàn)后臺系統(tǒng),另外增加了代理線程池。
7. 自然語言處理項目,通過算法評估nlp 團(tuán)隊的分詞工具,手寫算法計算精準(zhǔn)率,召回率,F(xiàn)1 值看分詞工具能否在特定領(lǐng)域取得較好的效果。
8. 算法優(yōu)化項目,通過已有數(shù)據(jù),作品的標(biāo)題,文章簡介,推薦短語,對上述文本進(jìn)行分詞,并利用 DBScan 算法進(jìn)行詞聚類,篩選能代表文章作品的詞語,利用word2vec 預(yù)訓(xùn)練好的大規(guī)模詞向量數(shù)據(jù),找尋之前聚類詞語的相似詞語,達(dá)到擴(kuò)充代表作品詞語庫的目的,同時將這些詞語全部轉(zhuǎn)換成詞向量,用這些詞向量代表動漫作品,根據(jù)已有用戶看過的作品,計算已用用戶看的作品與其它作品的余弦相似度,推薦相似程度高的作品給已有用戶,后續(xù)推廣給少部分用戶,做AB測試,提升效果。
9. 特征監(jiān)控項目,通過大數(shù)據(jù)框架 spark,redis 中間件,監(jiān)控訓(xùn)練模型數(shù)據(jù),訓(xùn)練模型結(jié)果,起到自動報警效果。
10. spark流任務(wù),處理kafka數(shù)據(jù),對用戶的喜愛作品進(jìn)行排名,涉及cas等高并發(fā)分布式技術(shù)。
11. springboot推薦引擎,設(shè)計后端服務(wù),涉及微服務(wù)架構(gòu),保證服務(wù)穩(wěn)定高效運(yùn)行。