云原生数据湖背后:看TO B腾讯的“两条线”

云原生数据湖背后:看TO B腾讯的“两条线”-创新湾

文章来源:产业家

ID:chanyejiawang

腾讯TO B再次升级。

5月14日,腾讯云与智慧产业事业群(CSIG)宣布新一轮架构升级,这是继2018年“930变革”后,腾讯To B业务的又一次重大进化。

这次架构升级透露出来的信号是,腾讯的产业互联网策略将向更深处进发,将之前的“打标杆,连接行业”的模型进一步延伸至线下,更加深入产业腹地。

在过去的近3年时间里,腾讯向外界展现了自身的TO B决心和能力,在智慧零售、安全、教育、出行等多个领域交出不少亮眼的成绩单。“产业”成为腾讯的新标签。

腾讯的“交卷”不仅体现在业务,更在底层技术。

就在腾讯宣布TO B战略升级的前一天,在“腾讯云原生智能数据湖”发布会上,腾讯云首次对外展示其完整的云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品,数据湖计算服务DLC和数据湖构建DLF。

云原生数据湖背后:看TO B腾讯的“两条线”-创新湾

数据湖,对其一个形象的比喻是,它等同于“一个大型的数据湖泊”,企业产生的所有数据都将汇聚在此。在数据湖架构的助力下,企业可以实现更高效的数据价值洞察。

根据研究机构MarketsandMarkets最新发布的研究报告显示,到2024年,数据湖市场将突破200亿美元,增长至201亿美元,复合年增长率将高达20.6%。

如今,腾讯云已经站上了这个主场。

“开箱即用”,重新解码数据湖

“开箱即用”,这是腾讯云数据湖新品的标签。

标签的定义者是这次发布会的两款产品——数据湖计算服务DLC和数据湖构建DLF。前者的作用点是可对数据湖中数据进行更为精密高效的分析,后者则是可帮助企业更为高效快捷地构建数据湖技术架构。

这仅是腾讯云数据湖的两部分。在本次发布会上,腾讯云公布了自身的云原生数据湖产品矩阵,其中包括数据湖存储、数据湖算力调度、数据湖大数据分析、数据湖AI能力、以及数据湖应用和云上基础服务。

以前的数据湖技术更聚焦于如何能存储高速增长的多元化数据集,并没有关注如何对数据湖中的数据进行价值分析洞察,也就是说没有告诉大家‘湖中有什么数据,湖中的数据能怎么用’。”雷小平说道。他是腾讯云大数据产品中心副总经理,也更是腾讯云数据湖产品的负责人。

诚然如此。2010年,Pentaho公司的CTO提出“数据湖”概念,在他看来,“如果你认为一个数据集市可以看作是桶装水店——提供了清洗、包装和组织等服务以方便用户消费,那‘数据湖’就是一个拥有更自然状态的大的水体,来自源头的内容流补充到湖中,各类客户可以来湖中检测、探索以及获取样本。”

在之后的很长一段时间内,数据湖更可以被视作一个访问成本低,不包含数据分类,但可以存储大量数据的“仓库”,其可以囊括所有结构化和非结构化的数据。

或者可以说,对大部分企业而言,数据湖仅是作为一个数据“黑箱”。

腾讯云数据湖解决的恰是这个问题。可以理解为,在腾讯云的定义里,数据湖俨然等同于一个“透明的数据湖泊”,企业不仅可以看到其中的数据分类,更可以在之上进行数据分析、计算,进行统一的元数据管理,进而放大自身价值。

基于这种“定义”的几个技术支撑是,在底层存储上,腾讯云数据湖是以对象存储COS服务为核心,理论上可以存储任意规模的异构数据,同时也更支持将其它云端数据设施作为数据湖的存储服务。

在数据湖算力调度方面,腾讯云采用弹性容器服务EKS,以应对企业面向全体员工的敏捷数据分析行为带来的算力峰值需求;在数据分析层,腾讯云提供了涵盖EMR、CDW云数据仓库、ES、Oceanus流计算及DLC在内的丰富云原生数据分析产品和服务,帮助企业客户在数分钟内即可构建企业级的完备数据湖分析能力;此外,用户还可利用腾讯云提供的数据协作工具对计算服务进行编排和调用,以大幅度提升企业数据的便捷性和敏捷度。

在数据湖分析服务之上,腾讯云数据湖还提供丰富的AI服务,可以为图像处理、音频处理、自然语言处理、视频处理等提供有力的数据支撑。

最后,基于底层的存储、数据分析、AI能力,腾讯云还专项推出了基于数据湖的复合数据应用服务,比如企业画像、联邦计算、商业智能分析等。

不难看出,不论是底层的存储,还是数据计算分析,抑或是腾讯专属的“AI服务”和最上层基于数据湖的功能应用,腾讯的数据湖矩阵已然覆盖企业对于数据需求的方方面面。

广度之中,也更有新的加速度。以本次发布会的两款产品来说,数据湖计算服务DLC可以满足企业只使用SQL就能轻易调取数据湖数据,而数据湖构建DLF则是等同于一个“机器管家”,让企业体验“无感知”的运维模式。

从数据角度来看,依托这两个工具,相比于本地自建大数据集群,企业数据湖构建时间可以减少60%,数据分析计算性能提升35.5%,而在云端数据湖架构投入使用后可使存算数据量增长75%。

此外,腾讯云数据湖更鲜明的一个特征是云原生。

这也恰是腾讯的考量所在。在如今的云计算大时代里,云上数据湖可以更好的扩展计算和存储资源,此外还能降低企业运维成本,实现更灵活的业务部署。

全方位、云原生、“无感知”,这恰是腾讯给数据湖下的新角色定位。

内生与“新连接”

对于腾讯云数据湖的诞生,雷小平有这样一个描述,“最开始我们还是从公司内部开始孵化,当时的主要场景之一是腾讯新闻。”

更清晰的表述是,在腾讯新闻海量的数据中,有些数据是偏数据分析,有些则是偏离线,有些则是偏实时等等。随着不同的业务线对数据的不同需求,腾讯内部孵化了很多优秀的技术和系统,这些技术积累为云端的数据湖产品和服务提供了非常有效的技术能力支撑。

数据湖恰是这个问题的最佳解决方案。即将相关的数据放置于“湖”中,依托一个标准的数据入湖存储、分析、出湖的流程,以技术为媒介,连接起各条业务线,进而形成规范的数据使用模式。

云原生数据湖背后:看TO B腾讯的“两条线”-创新湾

但这并不是件简单的事。以腾讯云数据湖的EKS计算能力为例,“作为一个轻量虚拟机产品,我们是需要在腾讯云几十、几百台物理虚拟机上去部署相关套件,测试稳定性,压力非常大。”邹辉表示。他是腾讯云容器产品中心总经理,也更是腾讯数据湖产品的核心参与者之一。

据了解,仅在EKS计算能力层面,邹辉和团队就经历了三次比较大的架构重构,“往往是解决了第一阶段的问题,第二阶段又会出现对前面的架构的挑战。”

不过,在如今的数据湖产品上,邹辉和团队研发的开放的容器化的架构已经为多个客户提供了强有力的数据分析能力。

客观来看,腾讯云的数据湖产品本身更等同于计算、存储、大数据等多个技术的合集,其在一统的产品解决方案下,为各个技术寻找最佳位置,发挥最大能力。

这点更体现在对外的业务窗口上。“一般数据湖的客户是由大数据团队来牵头,后续包括存储、计算等技术需要和各个团队进行配合完成。”之后,不同用户的数据将会在腾讯云数据湖上被分至单独的“隔间”,进行高效运转处理。

实际上,这种对外的统一界面在过去两年时间里已然成为腾讯在产业互联网加速的根基。即不论是从SaaS、PaaS、IaaS,还是技术层面的数据库、数据湖产品,腾讯正在形成单独的服务界面,以为客户提供最明确的服务对接人员。

但在每一个服务界面背后,腾讯内部宛如一个庞大且精密的仪器,齿轮咬合间,串联起产品表征背后的多种功能。

此外,值得一提的是,这种连接在腾讯内部同样对应着特殊的“客户角色”。“我们AI团队相当于是数据湖产品的内部客户,依托数据湖产品进行AI技术侧的标注、采集、资源配置等等功能的迭代。”王磊表示。他是腾讯云AI应用产品中心总经理,也是腾讯云内部数据湖产品的“资深使用者”之一。

“我们一般会和客户说明数据湖产品的优劣,以让客户自己决定是否采用这个架构。”王磊表示。但在双方敲定之后,用户更多的感知则是仅会发生在业务层面。对此,王磊举了一个有趣的例子,“客户只需要拿到鸡蛋就可以,不需要知道鸡蛋来自哪一个母鸡。”

在数据湖产品上,似能看到腾讯产业时代特殊的连接形态。即“新式的连接”不仅存在于腾讯与外部企业之间,更存在与腾讯内部技术团队之间,以及技术与业务之间。

这些连接组合之间,也恰构成了过去三年腾讯云拿出的一张张成绩单。

TO B腾讯的“两条线”

从更大视角来看,云原生数据湖背后,彰显出的是腾讯恒定的产业互联网路线。

一个明显的感知是,和普通的云原生数据湖不同,腾讯在数据湖的计算和存储侧都有自己的鲜明特色。这恰是建立在腾讯对不同客户需求的理解之上。

如在存储端,其采用了三级加速方案(包括存储端元数据加速器,提供近计算段数据缓存加速能力的GooseFS,以及提供AZ级全闪存硬件加速服务的COS加速器),企业可以根据自身需求做产品排列组合,进行存储加速;再如计算端,根据邹辉表示,在数据湖层面,“我们会推出一个更低成本的算力资源和套餐出来,来自主适配客户需求。”

再如在入湖上,腾讯云根据客户需求选择的是Iceberg新一代的数据湖表格形式,其可以更好地优化入湖流程,同时支持上层不同分析引擎。

“其实包括我们推出的这两款数据湖新品,也是在最近一两年的时间里经由与客户的磨合最终出来的。”雷小平告诉我们。

除了软件层面,硬件也更在与业务同步。据了解,如今腾讯云数据湖正在寻找在分布式云上布局的可能,即基于边缘终端设备,或者其它的IDC机房进行算力部署,进而在分布式云上构建出新的数据湖形态。

不难看到的是,产业之中,技术腾讯始终在加速迭代。

实际上,纵观过去三年的每一个标杆案例的建立,都有腾讯的技术闪光点。不论是数据库,还是数据湖,不论是AI能力,抑或是云原生定位,腾讯恰是依托一次次技术更迭,进而向外界展现出更鲜明的产业路线。

或者更可以说,在稳步的进击之中,技术腾讯和产业腾讯两条线正并驾齐驱,前者驱动后者,后者反哺前者。串联与并联交织之中,这两条线恰是腾讯产业互联网战略终极密码的最佳解构。

本内容为作者独立观点,不代表创新湾立场。如有异议,请联系创新湾。创新湾聚焦新科技、新产业,相关内容欢迎投稿。(投稿或转载请联系创新湾小编微信:LinkedBay)

云原生数据湖背后:看TO B腾讯的“两条线”-创新湾

云原生数据湖背后:看TO B腾讯的“两条线”-创新湾

发现中国科技创新的力量

创新湾ID:EnnoBay

您的浏览器不支持 HTML5 canvas 标签。 下载图片