基于Flink的实时数据接入实践

时间：2020-11-18 14:05:08 来源：作者：

简介： 新的接入方案在接入成本、接入延迟上都有了较为明显的优化效果，减轻了对统一调度系统的负载压力，并具备了端到端的业务对账能力。在公司开源协同的大背景下，TDBank的hive数据实时接入方案已经应用在pcg数据的接入中，并将逐步替换pcg现有的基于atta的数据接入。对TEG信安数据的接入目前也在进行中，后续我们还计划对现网存量的TDBank数据接入任务也进行迁移。

一、TDBank接入hive数据的痛点和挑战

数据接入到Hive是TDW数据接入中应用最广泛的场景，整体的数据流向路径如下所示：

图1 数据接入到TDW Hive的流向路径

数据从源侧发送，经过TDBus后存入MQ，然后由TDSort消费并根据业务规则进行分拣处理后存入中转的hdfs目录，再由配置的统一调度任务定时将数据以分区为单位写入hive仓库。可以看出，整个系统数据流经的环节较多，对运维和用户具有如下的痛点：

难以保证实时入库。数据多次流转、统一调度本身调度的延迟、hdfs性能的抖动、gaia资源的竞争（统一调度会通过hive生成gaia应用执行实际入库逻辑）等都会导致入库延迟。

接入质量无法衡量。由于缺少入库数据的对账环节，导致往往难以在第一时间感知到数据接入质量的好坏。

接入和运维成本高。整个过程需要额外准备hdfs存储资源、统一调度资源、hive资源、gaia计算资源，需维护这些资源和服务的可用性。这里面仅仅是统一调度的入库任务就占其总任务量的一半左右，给统一调度也带来了巨大的计算量。

整个过程需要额外的物力和人力投入，且还无法保证入库的及时性（不考虑数据迟到话入库延迟一般在30分钟到几小时之间）。

除此之外，大数据接入还有如下的挑战：

高流量和易运维性

目前tdbank接入的hive表总数为153978，日均的接入量为30万亿左右，其中最大的业务日均接入量达8万亿+。一方面流量巨大使得接入中断或重启的成本非常高，一方面需接入的hive表和业务规则众多，而我们需要根据业务规则把数据按照相应的格式落地到对应的hive。而这里的接入数据和业务规则往往会动态变化，故我们需要灵活高效的适应业务规则的变动。

接入延迟和数据碎片

接入延迟和数据碎片是一对矛盾体。追求低接入延迟会导致产生数据碎片，不利于HDFS的存储，并降低数据查询的效率。而高接入延迟在某些场景下无法被用户接受，在实际中需要权衡。

异常处理和数据一致性

流式数据处理过程中随时可能因为机器、磁盘、人为、软件等故障原因中断或重启，这种情况下必然有一部分数据是on the fly的，从而导致了不一致性，在大数据流量场景下会更加明显。Flink作为流式数据处理领域最流行的框架为我们提供了分布式系统流式数据处理时具有exactly_once语义的checkpoint机制，以帮助解决异常恢复问题，但应用仍然需要自己处理source和sink的状态保存和恢复，其中sink侧的处理尤其具有挑战性。

指标统计

从业务和运维角度，需要按表分区的维度统计指标数据。分布式系统中指标统计会面临两个问题：一是如何对指标按所需维度做汇聚；二是异常恢复时如何对指标进行回滚。

数据（负载）倾斜

TDSort运行在gaia上，gaia目前只支持对CPU和内存进行管控，而流式数据处理中IO资源，尤其是网络IO也是一种宝贵的资源。在大数据流量场景下极易发生因节点流量不均匀而导致的数据倾斜。

故障转移

大流量下，流式数据处理应用启停的代价相对较高，而机器、磁盘等经常会因为一些原因发生故障，这时需要有便利的手段使得运维人员可以进行剔除gaia节点、切换gaia集群等操作。

Sink（HDFS）性能抖动

HDFS性能抖动或故障除了导致数据无法写入、吞吐降低外，还会导致TDSort做checkpoint时因超时而失败。

二、接入实时性优化和功能增强

TDBus可以帮助收敛MQ的producer连接数并提供一个业务维度指标统计的切入点，MQ是数据暂存并可削峰平谷、解耦数据发送和数据处理，TDSort作为类似ETL或者data pipeline的角色承载了主要的数据接入逻辑，从业务角度审视都有其存在的必要性。入库任务主要承担如下功能：

根据调度配置定期去中转的hdfs目录上检查某个分区的数据是否已准备就绪；

准备就绪后创建hive外表，然后通过执行sql将数据从中转目录插入到实际的hive分区目录，这个过程是统一调度提交sql到hive server，hive server再在gaia上提交并运行任务完成的，中间涉及到的数据格式的转换也都是gaia上的任务来完成的。

基于以上分析，我们做了如下优化：

去除了统一调度任务入库的逻辑，业务数据由TDSort直接写入hive库。为了做到直接入库，TDSort除了需要获取到hive库表、分区等相关信息外，还需要支持将源数据转换为所需要的hive文件格式、压缩类型等。

提供了高效的分区入库状态查询服务TDLedger

增加了端到端对账的支持，同样由TDLedger承载。

对checkpoint的全面支持。

通过oceanus平台启停TDSort应用。Oceanus为我们提供了方便的任务启停、checkpoint保存、历史checkpoint点管理和恢复、资源管理和审批等功能，让我们可以聚焦于业务本身。

优化后的数据流向图如下所示：

图2 优化后的hive数据接入流向

除了数据流向本身的优化外，图中同时新增了入口指标流和出口指标流的统计计算，并在TDLedger侧进行对账，这对用户和运维侧也是非常重要的功能。

三、接入实时性优化效果

以日均接入6000亿、gzip压缩、文本格式接入的业务为例，下面为优化前后的对比：

入库延迟可以满足TP99<15min

图3 优化后hive入库延迟时间分布

有效降低了成本和资源的投入，包括hdfs存储资源、统一调度资源、hive资源、gaia计算资源等。

很自然地解决了数据迟到问题，不论迟到多久的数据都可以安全入库，同时也允许其他渠道来源的数据写入。

降低了系统复杂度，入库不再需要统一调度的支持，不再依赖运维侧的一些脚本。

通过oceanus统一管理了历史checkpoint、资源、权限、任务启停等，并将TDSort运行在gaia上，从而更便于运维和维护。

四、其他接入挑战的解决实践

1. 高流量和易运维性
对topic内的数据抽象了tid的概念，每个tid和一个hive表关联，每条数据归属于一个tid，这样就可以在一个topic内接入多个hive表的数据。

基于zookeeper做了配置服务，这样可以动态的下发配置和感知变动，并动态的接入新的topic。

接入服务TDSort基于流式数据处理领域最流行的flink开发，采用如下的拓扑结构：

图4 TDSort拓扑结构

2. 接入延迟和数据碎片
定义单个文件最大大小和最大数据延迟两个维度，业务根据需要进行配置。

对接入延迟容忍度较低的业务，通过小文件压缩任务定期对小文件进行合并。

3. 异常处理和数据一致性
Source侧：Checkpoint时保存MQ的offset信息，这样异常时就可以从前一个成功的checkpoint进行恢复。

Sink侧：对落地的HDFS文件名进行特意设计，这样我们从checkpoint恢复进行rollback时才能知道哪些文件是可以被安全删除的。这里不能根据文件的修改时间戳进行判断，因为每个gaia节点的时钟并不一定是完全一致的，而HDFS的性能也会有抖动导致上传文件有延迟。

需要优先确保服务的可用性，而异常回滚是一个耗时的操作，故设计为异步的，保证数据的最终一致性。

运维下发停止命令后可以停止MQ消费，并将on the fly的数据排干后再停止应用，这样可以有效降低下次启动时巨大的checkpoint恢复成本。

遇到HDFS故障时可以将本地磁盘作为暂存，这样可以避免checkpoint因超时失败的问题，并有效降低下次启动时巨大的checkpoint恢复成本。

4. 指标统计
如图4所示，TDSort由source、writer、checker三级vertex构成，其中checker按照期望的维度对指标进行汇聚（相当于sql中的group by后组内进行sum），进而可得到相应的指标数据。

存储每条指标数据时，同时存储checkpointId和指标发送时间，这样在rollback时根据checkPointId和指标发送时间删除相应记录即可。

5. 数据（负载）倾斜
仔细观察会发现，流量倾斜主要发生在Source和Writer节点之间。如下图所示，对于每个gaia集群，我们引入了称之为Router的协调者。每个节点会定期上报IO相关的负载信息到Router，Router会根据最近一段时间的流量情况判断是否有机器的IO高于设定的阈值，如果是的话则找出发数据过来的Source节点，从中找出流量最大的数据通道并进行分裂，将数据分发到负载较低的节点上去，实现IO的负载均衡。

图5 Router调整数据路由过程

6. 故障转移
TDSort可根据运维下发的指令动态停止某一些Source或者Writer而又不用重启整个应用，这在某些机器故障的情况下非常有用，可以避免成本较高的应用启停，并实现人为控制下的故障和流量转移。

7. Sink（HDFS）性能抖动
使用本地磁盘作为暂存，在HDFS性能抖动时将数据存入本地磁盘，不堵塞数据接入，并使checkpoint快速通过。

每个节点通过常驻的uploader上传文件，这样可在sort停止后将残留文件也上传到HDFS，确保不丢失数据。

五、总结

新的接入方案在接入成本、接入延迟上都有了较为明显的优化效果，减轻了对统一调度系统的负载压力，并具备了端到端的业务对账能力。在公司开源协同的大背景下，TDBank的hive数据实时接入方案已经应用在pcg数据的接入中，并将逐步替换pcg现有的基于atta的数据接入。对TEG信安数据的接入目前也在进行中，后续我们还计划对现网存量的TDBank数据接入任务也进行迁移。

原文链接：https://developer.aliyun.com/article/778464

Tags：数据接入点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

基于Flink的实时数据接入实践

简介：新的接入方案在接入成本、接入延迟上都有了较为明显的优化效果，减轻了对统一调度系统的负载压力，并具备了端到端的业务对账能力。在公司开源协同的大背景下，TDBank的hive...【详细内容】

2020-11-18　　Tags: 数据接入点击:(107)　　评论:(0)　　加入收藏

▌简易百科推荐

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(9)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(25)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(39)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

如何使用贸易数据开发客户？

本人03年开始从事贸易行业，多年来一直致力于外贸获客和跨境电商选品等领域，最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事？大家看到数据时关注的有产品、采购...【详细内容】

2021-10-28　　QD云龙　　　　Tags:数据　点击:(33)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为

无相关信息