1. 数据推送

1.1.1. 一、推送方式

哈勃数据通过kafka实时推送,用户通过订阅kafka数据可以满足更多使用场景,既可以满足离线统计需求,又可以支持实时分析

1.1.2. 二、工作流程

  1. 业务方申请一个kafka topic(用于数据推送与订阅 ,如没有私有kafka集群,可向运维申请公共kafka集群的topic)
  2. 业务方告知已申请的kafka broker信息、topic名称、推送数据的产品id。申请完成之后联系陈小健(hzchenxiaojian@corp.netease.com)
  3. 确认后数据开始推送,一般第二个工作日开始数据推送。请注意观察数据流是否跟已有数据模型保持一致。

1.1.3. 三、说明

  1. kafka里每一条数据是一个json字符串,各字段说明参见数据模型中事件属性events部分
  2. 业务方若只需按天做T+1的离线分析,可使用猛犸现有工具将kafka数据按天落地到hdfs目录(具体猛犸配置咨询猛犸值班)
  3. 因kafka存放数据的时间有限(一般为几天),建议业务方对kafka的数据在hdfs做永久备份,方便长期使用

results matching ""

    No results matching ""