说到数据中台定位,因为数据中台和前台、后台都需要有一个明确的划分,数据中台定位提供了这种抽象通用的能力来支持前台团队在此基础之上进行定制化,最终在复用通用能力的同时,能够满足业务快速发展的个性化的需求,达到一个全局最优化的状态。
三、爱奇艺数据中台建设
下面给大家介绍一下爱奇艺数据中台的建设过程。
1、建设
数据中台面向不同的用户和场景,它的呈现形式是都不一样。因为中台的目的是服务业务和用户,它区别于平台一个特别关键的点就是它可以满足不同场景和不同用户,通过数据中台的模块化能力构建一套定制化的数据处理流程,以此来满足不同业务的个性化的数据解决方案。
数据中台输出形式分为以下几个:
-
服务:指可以提供对外信息查询、可视化查询、数据接口、元数据接口等服务形式,用户可以直接访问或者通过协议对接到自己的平台或者服务当中;
-
数据:指数据工作中一个核心的产出,最终以一个统一数仓的形式呈现出来。统一数仓完成一些标准化的工作,把业务都需要的一些通用逻辑进行抽象处理,避免下游使用方在使用过程中的重复处理。因为在重复的处理过程中,可能会引入不一致的口径或者维度,造成资源的浪费。而且,因为数据发展可能要经历业务的很多阶段,所以我们在做统一数仓的时候,需要把这些历史的演进过程,帮用户屏蔽掉,让大家在用数据时,不需要再去考虑历史的演进问题。而且我们在对于不同业务之间也做了一个标准化的处理,方便用户跨业务地去使用数据;
-
平台:更多面向数据开发人员,对整个的大数据的能力进行了平台化的封装。提供界面化的数据开发能力,并且数据任务的运维和管理更加高效,同时也会把工作中常用到的信息以更好的组织形式展现出来。除了这些能力之外,还有其他便于用户使用和加工数据的能力,比如HA、补跑数据等;
-
投递:数据来源中比较重要的一块。在形成了一套投递标准之后,去建立一些对应的投递工具用于进行投递管理。进一步,在测试和灰度阶段也增加了两个平台用于保证投递质量,分别是统计测试平台和灰度监测平台。在这两个阶段对质量进行监控,最终保证数据在真正投递出来之前稳定可靠且质量比较高;
-
标准/规范:是数据中台能力最基础的组成部分。也就是说,中台要输出标准流程和规范来让大家可以快速按照流程和规范去开展工作,而且这个流程和规范一定是方便用户接受的。如果一些标准流程过于复杂,就要尽可能地通过平台化、工具化的方式协助用户理解。
4、数据中台的定位
2017年及以前:
-
2017年及以前大家的数据工作都是一个相对零散化的状态,用Hadoop client或者是其他的客户端进行数据工作的开发,并且通过脚本化对数据任务进行管理和运维。
但是数据生产更多是需求导向的,来一个需求,我们就可以做一个数据。而不是,我们根据业务的发展的方向去扩展数据的需求并且提前把扩展性做好,这样会导致数据比较零散,缺少统一的规划。而缺少这种标准化的建设过程也符合当时业务快速发展的需要。
2018年:
2018年爱奇艺开始推进平台化建设的事情,也就是数据平台的建设。
平台化的过程中,我们主要是完成了以下几项工作:
-
离线计算的任务的开发和运维管理;
-
对应的流式计算的开发和运维管理;
-
为了高效稳定地把外部的数据同步到我们的数据中台,或者把数据产出同步到其他的业务系统下,我们开发了自己的数据集成模块,用于实现不同存储数据之间的数据同步功能;
我们对数据进行了一些简单的管理,即数据表的创建到、维护、管理,都通过平台化的形式去进行的。
2019年:
-
在平台化初步建成之后,我们开始着手做一些标准化的工作。
-
标准化工作几乎覆盖了整个数据生命周期,从日志投递环节开始实施,针对Pingback2.0的规范,做了相应的工具来支持这个规范落地。同时结合公司业务制定了数据仓库规范,用于指导整个的建模流程,也对指标和维度体系都做了一个明确的定义和规范。
-
进一步,把数据的生产流程进行了流程化的管理,最终给下游提供了统一的数据接口能力。这个数据接口能力更多偏向应用层,我们通过前面一系列的数据开发工作,在平台上定义数据接口和数据服务,最终通过REST API的形式,对下游提供数据查询或接入能力。
2020年:
-
完成了上述的平台化和标准化工作之后,其实已经初步达到了中台化建设的要求。
-
前面提到的平台化和标准化更多的是给中台团队定义了一套统一的流程,让使用方按照这套流程做操作和处理。而中台化,其实是完成了一个从统一化到定制化的一个转变。也就是说,中台可以提供各种各样在不同环节的工具或者平台,业务方根据自己的需要进行灵活组装,把这种模块化的数据能力,定制化地输出到业务当中。
-
同时,我们开始了数据治理的体系。数据治理包括制定数据资产的定级标准、梳理整个数据链路、数据存储形式和数据使用审计等环节。所以可以认为,数据治理是一个持续性的工作,不像项目制工作有结项的节点和计划,这和平台化、标准化的事情还是有一定差异的。
还有就是我们在基于平台化、标准化的过程中,对新的业务抽象出一套通用的处理模板,帮助业务快速、自动化地完成接入,这种方式适合公司内部孵化的一些新业务快速接入我们的数据能力。
最后,是一个持续化的过程,即通用能力的不断沉淀。因为数据工作,或者其他技术类工作都是类似的,在实际的发展过程中技术和理念的升级,都会带来一些通用能力的抽象沉淀,所以这个不断沉淀的过程也是一个发展的过程。
3、数据中台的输出

(编辑:鹰潭站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|