数据链路追踪
在实时数据平台中,为了保证数据是可追溯的,一般会在数据生成时给每一条数据分配一个唯一的ID,以及生成的时间,最好再带上数据源的信息,这样DEBUG的时候就能知道数据是从哪来的。然后在数据的每个流转环节中,将每一条数据的ID和到达时间记录到日志或者其他存储中
这样在发生问题或者调试时,就能通过ID重现数据的轨迹,包括数据行经的每个组件以及消耗的时间。这个过程能够通过ELK轻松完成,将所有组件的日志导入ES,然后使用ID在Kibana中搜索,甚至可以通过定制图表来实现数据链路可视化,这里不做展开