一、大數(shù)據(jù)采集大數(shù)據(jù)采集,即對(duì)各種來(lái)源的結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù),所進(jìn)行的采集。數(shù)據(jù)庫(kù)采集:流行的有Sqoop和ETL,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle 也依然充當(dāng)著許多企業(yè)的數(shù)據(jù)存儲(chǔ)方式。當(dāng)然了,目前對(duì)于開(kāi)源的Kettle和Talend本身,也集成了大數(shù)據(jù)集成內(nèi)容,可實(shí)現(xiàn)hdfs,hbase和主流Nosq數(shù)據(jù)庫(kù)之間的數(shù)據(jù)同步和集成。網(wǎng)絡(luò)數(shù)據(jù)采集:一種借助網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API,從網(wǎng)頁(yè)獲取非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),并將其統(tǒng)一結(jié)構(gòu)化為本地?cái)?shù)據(jù)的數(shù)據(jù)采集方式。文件采集:包括實(shí)時(shí)文件采集和處理技術(shù)flume、基于ELK的日志采集和增量采集等等。二、大數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理,指的是在進(jìn)行數(shù)據(jù)分析之前,先對(duì)采集到的原始數(shù)據(jù)所進(jìn)行的諸如“清洗、填補(bǔ)、平滑、合并、規(guī)格化、一致性檢驗(yàn)”等一系列操作,旨在提高數(shù)據(jù)質(zhì)量,為后期分析工作奠定基礎(chǔ)。數(shù)據(jù)預(yù)處理主要包括四個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約。數(shù)據(jù)清理:指利用ETL等清洗工具,對(duì)有遺漏數(shù)據(jù)(缺少感興趣的屬性)、噪音數(shù)據(jù)(數(shù)據(jù)中存在著錯(cuò)誤、或偏離期望值的數(shù)據(jù))、不一致數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)集成:是指將不同數(shù)據(jù)源中的數(shù)據(jù),合并存放到統(tǒng)一數(shù)據(jù)庫(kù)的,存儲(chǔ)方法,著重解決三個(gè)問(wèn)題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測(cè)與處理。數(shù)據(jù)轉(zhuǎn)換:是指對(duì)所抽取出來(lái)的數(shù)據(jù)中存在的不一致,進(jìn)行處理的過(guò)程。它同時(shí)包含了數(shù)據(jù)清洗的工作,即根據(jù)業(yè)務(wù)規(guī)則對(duì)異常數(shù)據(jù)進(jìn)行清洗,以保證后續(xù)分析結(jié)果準(zhǔn)確性。數(shù)據(jù)規(guī)約:是指在最大限度保持?jǐn)?shù)據(jù)原貌的基礎(chǔ)上,最大限度精簡(jiǎn)數(shù)據(jù)量,以得到較小數(shù)據(jù)集的操作,包括:數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約、概念分層等。
web框架
這個(gè)是最直接的,一門(mén)語(yǔ)言要成為web后臺(tái)語(yǔ)言,首先要有處理web后臺(tái)相關(guān)的庫(kù),然后在一些巨人的封裝下,形成web框架。python目前熱門(mén)的web框架有:Django、tornado、flask,web.py,web2.py等。我自己接觸過(guò),web.py、tornado。
restfull
目前后臺(tái)組織代碼比較火的規(guī)范之一。
pep8
目前python代碼編碼規(guī)范之一
web server
webserver為網(wǎng)上信息瀏覽服務(wù),對(duì)后臺(tái)來(lái)說(shuō),生產(chǎn)環(huán)境往往會(huì)涉及這部分的內(nèi)容。所以常見(jiàn)的webserver的配置,優(yōu)化。是必修的功課之一。而且目前webserver往往作為軟件
項(xiàng)目時(shí)間:2017-01到2011-10
項(xiàng)目名稱:引物自動(dòng)化設(shè)計(jì)軟件
項(xiàng)目描述:
項(xiàng)目介紹
這個(gè)軟dao件開(kāi)發(fā)原因是因?yàn)殡S著每日數(shù)據(jù)分析量的加大,組內(nèi)人員較少,對(duì)引物設(shè)計(jì)這種工作變成了工作效率的阻礙,遂提出了設(shè)計(jì)軟件以達(dá)到自動(dòng)化設(shè)計(jì)的目的。而且引物設(shè)計(jì)主要費(fèi)時(shí)在于多種驗(yàn)證操作,可以通過(guò)軟件自動(dòng)驗(yàn)證減少人力成本。
我的職責(zé)
1,軟件基礎(chǔ)功能設(shè)計(jì),完成相關(guān)函數(shù)如自連互連驗(yàn)證,溫度驗(yàn)證等功能
2,分析NCBI網(wǎng)頁(yè)格式,設(shè)計(jì)API調(diào)用接口
3,編寫(xiě)測(cè)試腳本對(duì)軟件進(jìn)行測(cè)試
項(xiàng)目時(shí)間:2018-12到2019-10
項(xiàng)目名稱:政務(wù)大數(shù)據(jù)平臺(tái)解決方案
項(xiàng)目描述:
項(xiàng)目介紹
政務(wù)大數(shù)據(jù)平臺(tái)解決方案——推行電子zhengwu、建設(shè)智慧城市等為抓手,以數(shù)據(jù)集中和共享為途徑,推動(dòng)技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合,打通信息壁壘,形成覆蓋全國(guó)、統(tǒng)籌利用、統(tǒng)一接入的數(shù)據(jù)共享大平臺(tái),構(gòu)建全國(guó)信息資源共享體系,實(shí)現(xiàn)跨層級(jí)、跨地域、跨系統(tǒng)、跨部門(mén)、跨業(yè)務(wù)的協(xié)同管理和服務(wù)。
我的職責(zé)
1,ETL設(shè)計(jì)及實(shí)現(xiàn)
2,python接口進(jìn)行hive pandas等手段進(jìn)行數(shù)據(jù)分析
3,設(shè)計(jì)批處理流程和增量處理流程
農(nóng)業(yè)知識(shí)圖譜是融合了農(nóng)業(yè)地域性,季節(jié)性,多樣性等特征后,利用農(nóng)業(yè)領(lǐng)域的實(shí)體概念與關(guān)系,挖掘出農(nóng)業(yè)潛在價(jià)值的智能系統(tǒng) 應(yīng)用場(chǎng)景: 通用 vs 領(lǐng)域/行業(yè)應(yīng)用 從搜索延伸至推薦、問(wèn)答等復(fù)雜任務(wù) 從簡(jiǎn)單關(guān)系發(fā)現(xiàn)到深層關(guān)系推理 從回答what問(wèn)題到回答why問(wèn)題
大數(shù)據(jù)工作流調(diào)度平臺(tái)是一個(gè) Python功能 模塊,可以構(gòu)建復(fù)雜的批量作業(yè)管道。處理依賴決議、工作流管理、可視化展示等等,內(nèi)建 Hadoop 支持。 大數(shù)據(jù)平臺(tái)技術(shù)框架支持的開(kāi)發(fā)語(yǔ)言多種多樣,開(kāi)發(fā)人員的背景差異也很大,這就產(chǎn)生出很多不同類型的程序(任務(wù))運(yùn)行在大數(shù)據(jù)平臺(tái)之上
可視化數(shù)據(jù)同步系統(tǒng)是在DataX之上開(kāi)發(fā)的分布式數(shù)據(jù)同步工具,提供簡(jiǎn)單易用的操作界面,降低用戶使用DataX的學(xué)習(xí)成本,縮短任務(wù)配置時(shí)間,避免配置過(guò)程中出錯(cuò)。用戶可通過(guò)頁(yè)面選擇數(shù)據(jù)源即可創(chuàng)建數(shù)據(jù)同步任務(wù),RDBMS數(shù)據(jù)源可批量創(chuàng)建數(shù)據(jù)同步任務(wù),支持實(shí)時(shí)查看數(shù)據(jù)同步進(jìn)度及日志并提供