開發(fā) Spark(PySpark) 批處理任務(wù)(日均處理TB級日志)。
mysql的偽數(shù)倉, 以及mysql調(diào)" />
數(shù)據(jù)管道與存儲:熟練搭建 Hadoop(HDFS/YARN) 集群,設(shè)計 Hive 數(shù)據(jù)倉庫(分區(qū)、分桶優(yōu)化)。
開發(fā) Spark(PySpark) 批處理任務(wù)(日均處理TB級日志)。
mysql的偽數(shù)倉, 以及mysql調(diào)優(yōu)和SQL調(diào)優(yōu)
掌握 ETL開發(fā)。
BI工具與多維分析:精通 FineBI 開發(fā)復(fù)雜報表(參數(shù)控制、層級鉆取、動態(tài)計算),以及FDL
自動化與協(xié)作:熟悉rpa自動化軟件(影刀)
前期:使用MySQL搭建偽數(shù)據(jù)倉庫
設(shè)計并實現(xiàn)了基于MySQL的數(shù)據(jù)倉庫架構(gòu),整合了多個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源。
開發(fā)了一系列ETL作業(yè),定期抽取、清洗和加載數(shù)據(jù)至數(shù)據(jù)倉庫,確保數(shù)據(jù)的一致性和準確性。
利用FineBI 創(chuàng)建了多個交互式報表和儀表板,提供給銷售、市場和運營團隊使用,提升了決策效率。
實現(xiàn)了關(guān)鍵業(yè)務(wù)指標(KPIs)的自動計算和報告生成,減少了手動操作的工作量。
中期:優(yōu)化現(xiàn)有數(shù)據(jù)倉庫
分析現(xiàn)有數(shù)據(jù)倉庫的性能瓶頸,提出了多項優(yōu)化建議,如索引優(yōu)化、分區(qū)表設(shè)計等,顯著提高了查詢性能。
引入了增量更新機制,減少了全量數(shù)據(jù)同步的時間和資源消耗。
建立了數(shù)據(jù)質(zhì)量監(jiān)控體系,定期檢查數(shù)據(jù)完整性和一致性,確保高質(zhì)量的數(shù)據(jù)輸出。
后期:升級為大數(shù)據(jù)平臺
領(lǐng)導(dǎo)了一個從傳統(tǒng)數(shù)據(jù)倉庫向大數(shù)據(jù)平臺遷移的項目,選擇了Apache Hadoop和Apache Spark作為核心組件。
設(shè)計并實施了新的數(shù)據(jù)架構(gòu),包括數(shù)據(jù)湖的設(shè)計、ETL流程的重構(gòu)以及實時數(shù)據(jù)處理管道的建立。
部署了AWS EMR集群,用于大規(guī)模數(shù)據(jù)處理,并利用S3存儲海量原始數(shù)據(jù),降低了存儲成本。
開發(fā)了基于Spark Streaming的應(yīng)用程序,實現(xiàn)實時銷售數(shù)據(jù)的分析和監(jiān)控,支持即時決策。
整合了多種數(shù)據(jù)源(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化),建立了統(tǒng)一的數(shù)據(jù)視圖,增強了數(shù)據(jù)的可訪問性和可用性