任務(wù)職能:參與設(shè)計公司內(nèi)部大型數(shù)據(jù)分析系統(tǒng),包含建立維護(hù)可靠穩(wěn)定的分布式云采集系統(tǒng),建立維護(hù)穩(wěn)定可靠的數(shù)據(jù)分析過濾清洗系統(tǒng)以及數(shù)據(jù)存儲等。
就業(yè)技能:
" />
目前擔(dān)任公司高級數(shù)據(jù)采集分析工程師,參與公司內(nèi)部法律大數(shù)據(jù)項目的開發(fā)。
任務(wù)職能:參與設(shè)計公司內(nèi)部大型數(shù)據(jù)分析系統(tǒng),包含建立維護(hù)可靠穩(wěn)定的分布式云采集系統(tǒng),建立維護(hù)穩(wěn)定可靠的數(shù)據(jù)分析過濾清洗系統(tǒng)以及數(shù)據(jù)存儲等。
就業(yè)技能:
1)后端:springboot,springmvc,爬蟲開發(fā)(jsoup,htmlunit,webdriver,phantomjs),數(shù)據(jù)庫(mysql,Oracle,DB2)hadoop,云計算,word2vec,Python,web應(yīng)用,app開發(fā)分析/采集,微信公眾號,小程序開發(fā)
2)前端:vue.js jquery css3 瀏覽器插件
項目經(jīng)歷:本人熟悉各種數(shù)據(jù)采集模式,參與過多種大型項目的設(shè)計與開發(fā),先后參與開發(fā)互聯(lián)網(wǎng)金融風(fēng)險分析技術(shù)平臺,hummer智能采集云平臺,全國企業(yè)風(fēng)險查詢系統(tǒng),上海廣電監(jiān)控系統(tǒng)等.
個人主頁:http://www.jstarseven.com/
互聯(lián)網(wǎng)金融風(fēng)險分析技術(shù)平臺<內(nèi)部宣傳主頁:https://www.ifcert.org.cn/>
軟件環(huán)境: tomcat7.0、nginx、mysql、redis2.4.5、elasticsearch
硬件環(huán)境:windows7
開發(fā)工具:idea
項目職責(zé):
1.全國互聯(lián)網(wǎng)金融平臺發(fā)現(xiàn):
1)ICP備案信息采集分析<周期性> 2)外鏈抽取<周期性> 3)快照采集<周期性> 4)元搜索:百度+360+bing+搜狗<周期性>、
5)獨立詞+svm方式識別金融平臺
2.確認(rèn)金融平臺數(shù)據(jù)采集:
1)首頁ICP備案信息定時巡查
2)產(chǎn)品線信息采集
3)項目信息采集
4)網(wǎng)站公告采集
3.互聯(lián)網(wǎng)金融數(shù)據(jù):分析同步+統(tǒng)計
采集數(shù)據(jù)去重過濾、字段分析處理,同步入ES+redis+mysql
確認(rèn)金融網(wǎng)站日統(tǒng)計/周統(tǒng)計/月統(tǒng)計
地區(qū)分布維度,用戶總量維度、、、等
項目描述:系統(tǒng)為國家互聯(lián)網(wǎng)金融風(fēng)險分析技術(shù)平臺提供強大的基礎(chǔ)數(shù)據(jù)來源;實現(xiàn)從多種渠道采集互聯(lián)網(wǎng)網(wǎng)站數(shù)據(jù);研究網(wǎng)站分類技術(shù),開發(fā)高效地網(wǎng)站分類程序功能模塊,實現(xiàn)對海量的網(wǎng)站數(shù)據(jù)進(jìn)行初步的分類并發(fā)現(xiàn)金融網(wǎng)站;基于金融平臺背景、平臺誕生及消亡、備案等情況進(jìn)行標(biāo)識,實現(xiàn)對金融平臺多維度標(biāo)識功能;獲取工商注冊數(shù)據(jù),建立互聯(lián)網(wǎng)金融平臺關(guān)聯(lián)圖譜;最終本項目開發(fā)的子系統(tǒng)實現(xiàn)為界面子系統(tǒng)提供展示所需的數(shù)據(jù)功能。核心目標(biāo)是采集并研究分析互聯(lián)網(wǎng)金融平臺網(wǎng)站特征,實現(xiàn)平臺不同金融業(yè)態(tài)類型的初步分類,實現(xiàn)平臺多維度標(biāo)簽標(biāo)識。
主要模塊劃分如下:
事前摸底<總體態(tài)勢、平臺畫像、互金地圖、今日新增>
事中監(jiān)測<運行監(jiān)測、資金監(jiān)測、輿情監(jiān)測、網(wǎng)安監(jiān)測、異常檢索>
事后跟蹤<事件發(fā)現(xiàn)、事件跟蹤、輿情溯源>
綜合分析<平臺排行、生命周期、專報定制>
業(yè)務(wù)探索<虛擬貨幣、尾盤交易、網(wǎng)絡(luò)催收>
綜合管理<異常審核>
hummer智能采集云平臺<內(nèi)部>
軟件環(huán)境: tomcat7.0、redis2.4.5、mysql、phantomjs、linux、NFS
硬件環(huán)境:windows7
開發(fā)工具:idea
項目職責(zé):整體完成項目的需求分析、數(shù)據(jù)庫設(shè)計、詳細(xì)設(shè)計、框架搭建,任務(wù)分配,開發(fā)。
項目描述:主要劃分為以下三個子系統(tǒng)
任務(wù)配置管理系統(tǒng):
1-->.手動配置
單頁采集<抓取頁面快照展示、配置單頁任務(wù)>
列表+分頁采集<抓取頁面快照展示、配置列表+分頁任務(wù)>
列表+詳情采集<抓取頁面快照展示、配置列表+詳情任務(wù)>
數(shù)據(jù)展示<及時顯示任務(wù)采集數(shù)據(jù)>
2-->.自動采集
列表+詳情+自動發(fā)現(xiàn)采集<自動發(fā)現(xiàn)網(wǎng)頁列表+詳情主要區(qū)域、采集數(shù)據(jù)分字段存儲>
網(wǎng)頁快照下載
網(wǎng)頁內(nèi)鏈抽取
網(wǎng)頁文本抽取
3-->.任務(wù)周期定時
4-->.任務(wù)異常上報
5-->.采集數(shù)據(jù)對外<API調(diào)用+文件下載>
任務(wù)分發(fā)系統(tǒng):
1-->.接收任務(wù)
2-->.下發(fā)任務(wù)<下發(fā)至執(zhí)行機任務(wù)數(shù)最小節(jié)點>
3-->.監(jiān)測任務(wù)執(zhí)行狀態(tài)
4-->.任務(wù)NFS文件存儲系統(tǒng)管理<任務(wù)數(shù)據(jù)默認(rèn)留存20天>
任務(wù)執(zhí)行采集節(jié)點:
1-->.執(zhí)行任務(wù)<分解任務(wù)步驟、采集>
2-->.任務(wù)數(shù)據(jù)文件生成
3-->.任務(wù)執(zhí)行狀態(tài)上報
4-->.任務(wù)超時重試
5-->.任務(wù)日志+截圖留存
6-->.失控phantomjs進(jìn)程處理。
全國企業(yè)風(fēng)險查詢系統(tǒng)<內(nèi)部>
軟件環(huán)境: tomcat7.0+nginx負(fù)載均衡、redis主從、mysql集群、es集群、keepalived雙機熱備
硬件環(huán)境:windows7
開發(fā)工具:idea
項目職責(zé):整體設(shè)計,數(shù)據(jù)采集,分析處理,接口開發(fā)。
項目描述:企業(yè)風(fēng)險庫,針對全國范圍內(nèi)的企業(yè)行政許可,行政處罰等其他信息,建立起風(fēng)險庫。系統(tǒng)主要分為四個大的模塊,雙公示信息采集模塊,工商信息采集模塊,裁判文書信息采集模塊,數(shù)據(jù)去重入庫模塊。支持對企業(yè)許可,處罰等信息,定期分析,統(tǒng)計,數(shù)據(jù)展示,以及系統(tǒng)后臺對企業(yè)風(fēng)險庫業(yè)務(wù)運營的管理。
主要模塊劃分如下:
1)雙公示數(shù)據(jù)采集<爬取信用中國各省市縣信用許可與信用
角色 | 職位 |
負(fù)責(zé)人 | 高級java開發(fā)工程師,高級數(shù)據(jù)采集工程師 |
隊員 | 產(chǎn)品經(jīng)理 |
隊員 | UI設(shè)計師 |
隊員 | iOS工程師 |
隊員 | 安卓工程師 |
隊員 | 前端工程師 |
隊員 | 后端工程師 |