服務(wù)內(nèi)容全部包含:
· 通過接口從上游抽取日志、訂單等數(shù)據(jù)并按照數(shù)據(jù)存儲規(guī)范存入 HDFS。
· 使用 Spark 對各類數(shù)據(jù)進(jìn)行清洗、過濾、脫敏后轉(zhuǎn)換為各自統(tǒng)一口徑的數(shù)據(jù)格式。
· 分析各項指標(biāo)進(jìn)行相應(yīng)數(shù)據(jù)的聚合, 優(yōu)化聚合邏輯以達(dá)到高效率與低資源占用的平衡。
· 開發(fā)與優(yōu)化歸因模型: 全量歸因模型、末次歸因模型、線性歸因模型、自定義歸因模型等。
服務(wù)優(yōu)勢:
· 深刻理解 Hadoop 生態(tài)圈: HDFS 讀寫流程及高可用架構(gòu)、MapReduce 運(yùn)行原理和 YARN 的資源調(diào)度策略。
· 熟練使用 Spark 技術(shù)棧, 能夠通過 SparkCore、SparkSQL、SparkStreaming、StructuredStreaming 等模塊進(jìn)行業(yè)務(wù)開發(fā)。
服務(wù)前需客戶提供的信息:
· 需求是什么?
· 最晚交付日期?
· 目前有哪些資源?
· 具體流程與細(xì)節(jié)?
· 有無特殊要求?
· 后續(xù)有沒有可能繼續(xù)合作?
數(shù)據(jù)采集產(chǎn)品數(shù)據(jù)治理產(chǎn)品數(shù)據(jù)分析產(chǎn)品數(shù)據(jù)可視化產(chǎn)品數(shù)據(jù)存儲產(chǎn)品