1. 数据推送

1.1.1. 一、推送方式

哈勃数据通过kafka实时推送，用户通过订阅kafka数据可以满足更多使用场景，既可以满足离线统计需求，又可以支持实时分析

1.1.2. 二、工作流程

业务方申请一个kafka topic（用于数据推送与订阅，如没有私有kafka集群，可向运维申请公共kafka集群的topic）
业务方告知已申请的kafka broker信息、topic名称、推送数据的产品id。申请完成之后联系陈小健(hzchenxiaojian@corp.netease.com)
确认后数据开始推送，一般第二个工作日开始数据推送。请注意观察数据流是否跟已有数据模型保持一致。

1.1.3. 三、说明

kafka里每一条数据是一个json字符串，各字段说明参见数据模型中事件属性events部分
业务方若只需按天做T+1的离线分析，可使用猛犸现有工具将kafka数据按天落地到hdfs目录（具体猛犸配置咨询猛犸值班）
因kafka存放数据的时间有限（一般为几天），建议业务方对kafka的数据在hdfs做永久备份，方便长期使用

results matching ""

No results matching ""