解读数据架构的2021:大数据10体系基本建成,但头上仍有几朵乌云

本文摘抄自infoQ《2021年技术盘点与展望》

原文链接

解读数据架构的2021:大数据10体系基本建成,但头上仍有几朵乌云

2021年,大数据领域发展到哪一阶段?

Gartner Hype Cycle 把整个发展周期分成 5 个部分

  • 创新期
  • 狂热期
  • 冷静期
  • 复兴期
  • 普惠期

大数据技术体系 1.0 基本建成

新技术

  • 湖仓一体
  • 边缘计算
  • 区块链账本

    数据平台赛道价值显性化,带来大量投资和创业机会

  •  2021 年 6 月 25 日,Apache Kafka 商业化公司 Confluent 正式登陆纳斯达克,首日开涨 25%,市值超过 110 亿美元。
  •  2021 年 8 月 29 日,Apache Iceberg 的创建者 Ryan Blue、Dan Weeks 和 Netflix数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕
  • Apache Iceberg 构建新型数据平台的商业公司 Tabular。  2021 年 8 月 31 日,大数据初创公司 Databricks 宣布获得 16 亿美元 H 轮融资,
  • 最新估值飙升至 380 亿美元,距离上一轮 10 亿美元的 G 轮融资仅仅过去 7 个月时间。
  •  2021 年 9 月 20 日,ClickHouse 的创建者 Alexey 正式从 Yandex 独立出来并成成立了一个公司ClickHouse, Inc。同时 ClickHouse 公司获得由 Index Ventures 和 Benchmark 领投的 5000 万美元 A 轮融资,Yandex 也参与其中。
  •  2021 年 10 月 12 日,基于开源的 Apache Pulsar 的商业化公司 StreamNative 宣布获得 2300 万美元 A 轮融资。
  • 2021 年,Clickhouse、Tebula(Apache Iceberg 背后的商业公司)、Firebolt 以及国内诸多新兴创业公司为这一领域带来了很好的讨论度。

客户开始明确分层,带来平台架构的不同取舍

客户分层

  1. 头部互联网技术公司,以 Top30-50 一线互联网公司为代表。技术栈上,以自建平台为主,且大部分公司采用以开源为基础的自建方式(其中少数 Top10 头部厂商会投资 0 到 1 自研)。

  2. 中腰部技术公司,其中又可以细分为两类:

    • 中腰部互联网公司,这类型公司大多数诞生于云时代(近 8 年),通常处于成 长期并聚焦自身业务发展,对基础设施投资有限,同时追求更低的 TCO(包含 硬件和人力的总成本),倾向直接采用公共云平台架构并购买 PaaS 服务。(注:这类型客户是 SnowFlake 的典型客户)。

    • 有技术能力的非互联网公司,以银行/通信等领域企业为主。因监管或者资管要 求,通常采用专有云或者混合云模式,企业具备数据开发人员,能够在数据平 台上完成数据应用/解决方案的开发。这类型客户通常负责关键业务,对平台的 企业级能力(包括稳定性、安全性、免运维能力)要求很高。

  3. 纯甲方应用型客户,以线下大型非技术型企业为主。这类型客户通常没有数据开发 和应用建设的经验和团队,对数据类应用的需求多通过与合作伙伴(ISV)合作或 者外包方式完成。对技术栈和技术选型通常不敏感,但对稳定性要求很高。

当下技术架构的五个热点

引擎架构的进化,向进一步解耦和池化发展

面向云原生、云中立的系统架构设计

数据湖与数据仓库技术相互融合:湖仓一体

对比维度 数据湖 数据仓库
方法论 事后建模 事前建模
存储类型 结构化、半结构化、非结构化 结构化、半结构化
计算引擎 向所有引擎开放 各引擎有限优化 向特定引擎开放
成本 难运维管理 难启动
数据治理 质量低 难管理使用 质量高 易管理使用

发展趋势:湖仓一体

实际上湖仓一体有两个流派:数据仓库到数据湖,数据湖到数据仓库

第一个流派是以数仓这种方式诞生的,它是一个左右派,左边是一个数据仓库,右边是一个数据湖,中间以高速网络相连形成一个反对式的联动;

第二个流派是从数据湖向数仓演进,整体架构是在数据湖上搭建数据仓库。

这两个流派的代表分别是 AWS Redshift/阿里云 MaxCompute,以及 Databricks,目前这两个流派都还在发展中。

AI 成为数据平台的一等公民

数据分析和 BI 更侧重于历史数据的总结

而算法/AI 具备越来越好的面向未来做预测,给大家带来更多决策支撑

“1+N+1”的系统架构

第一个 1,代表存储和资源的统一。

中间的 N 指代的是多种运算引擎和模式,例如批处理、流处理、机器学习、图计算等等,不同的计算引擎共享底层的数据和资源池。

最后一个 1,是指统一的接入层和数据开发应用层,这个层次是可选的。有些企业选择统一入口管理的架构,做更好的权限管理等。有些企业和厂商选择不再收敛了,引擎可以被各种团队或者各种用户独立使用。

面向未来的四个发展趋势

实现从离线到实时的全频谱

Apache Delta、Hudi为代表的近实时化技术

Data Freshness、Resource Costs 和 Query Performance

IoT 类数据处理成为新热点

云边端协同的计算模式会成为热点,统称 IoT。

数据安全、共享与隐私保护的矛盾需要新解法

数据安全不仅仅是一个权限问题,还涉及很复杂的系统架构包括:

  • 权限管理
  • 用户隔离
  • 存储加密
  • 异地备份
  • 敏感数据、风险行为的识别

AI for System(DW Automation)

  • PB级别
  • EB级别
  • 每天百万级别

DBA 以人为轴的数据管理和优化方式不再胜任

机器学习、深度学习的自动化技术

通过机器学习自动进行数据分层:

  • 依据访问的统计判断什么样的数据更重要
  • 什么样的数据其实不重要
  • 哪些作业可以放在冷存储上
  • 哪些是关键作业需要放在更高优先级的存储上。

当作业量达到百万量级时,这些决策应该由机器来自动完成,而不应该由人来完成。

三个未解的挑战

疑问1:引擎多样化,最终是否能诞生一套OneSizeForAll引擎满足多样的计算需求,并兼顾通用性和效率?

自建系统:

  • Spark 做批处理
  • Flink 做流处理
  • Clickhouse 做交互分析
  • HBase 做 KV 查询
  • ElasticSearch 做文本检索。

疑问 2:基于开源自建与直接选购企业级产品,谁更能获得用户的认可?

这个答案可能需要结合客户分层来看

一个简单的经验公式是:

对于百台规模的平台,基于开源软件自建的总 TCO=物理硬件成本+开发和维护人力成本=物理硬件成本*2

疑问 3:关系模型之外,是否会发展出其他主流计算范式?

主流的计算范式就是二维关系表达

图计算是目前最被看好的方向,它是点边模型。

图学习 GraphEmbedding 技术

读了有收获就请肥宅喝瓶怡宝吧!