文章图片
文章图片
文章图片
文章图片
文章图片
正文:
本篇内容将通过两个部分来介绍MaxCompute湖仓一体 。
一、什么是 MaxCompute 湖仓一体二、湖仓一体成功案例介绍
一、什么是 MaxCompute 湖仓一体 湖仓一体的整体架构 , 主要面向数据分析师 , 数据科学家以及大数据工程师来使用 。 主要应用的业务有Machine , 非结构化数据分析 , Ad-hoc/BI , Reporting和Learning等等 。 在整体架构中 , DataWorks作为数据统一开发管理的平台 , 主要负责数据安全 , 开发IDE , 任务调度和数据资产管理等综合工作 , 确保平台稳定运行 。
如上图所示 , 在整体架构中 , 我们首先将数据湖集群和MaxCompute数仓集群的网络打通 , 然后将存储层的数据打通 , 确保智能Cache , 冷热分层 , 存储优化和性能加速 。 在计算层 , 我么实现了DB级元数据的透视 , 避免数据孤岛 。
DataWorks统一了各种数据资产 , 比如E-MapReduce , CDH HBase , CDH Hive和AnalyticDB for等 。 不但能在数据地图中看到全域的数据资产 , 而且还支持从数据源里抽取元素与信息 。
在阿里内部 , 我们实现了一定程度的数据民主化 。 现如今 , 阿里集团内部所有的表 , 员工都能够看到表名称和的元数据信息 , 以及信息的安全等级 。 DataWorks作为中台:可以从列表中支持的数据源采集数据 , 纳入平台管控 。
目前 , 统一的表级、字段级别数据血缘就现有的产品能力 , 只能局限于单一引擎内部的跨血缘 。 预计明年能够实现跨引擎的数据血缘 。
在单一引擎内部 , 可以挂载多个hadoop集群 , 实现统一引擎的对接与管理 。
DataWorks作为统一的数据开发平台 , 能够将MC的任务和hadoop任务混编在一个流程中 。 不但可以统一临时查询入口 , 发送给不同的引擎 。 而且可以将不同的引擎作业混合调度 。 比如数据集成作业 , MaxCompute作业以及Hive作业等 。
二、湖仓一体成功案例介绍 某互联网游戏公司的广告算法团队是湖仓一体主要客户 , 主要应用是机器学习DW+MC+PAI+EAS在线模型服务 。 该团队的自服务程度高、需要一站式的机器学习平台 。 而Hadoop集群有多团队共用 , 使用集群管控较严 , 无法短时间支撑大workload的创新业务 。 基于以上需求 , 我们通过湖仓一体 , 将新业务平台与原有数据平台打通 , 即PAI on MaxCompute+DataWorks 。 为客户提供了一站式机器学习 , 模型开发、模型发布 , 大规模计算等能力 , 提升了团队的工作效率 。
数禾公司通过引入MaxCompute作为计算引擎的数据中台 , 不但让数据湖计算自由流动 , 而且解决了先前异构计算引擎存储管理 , 元数据管理和权限管理不同统一的问题 。 不但提升了整体的工作效率 , 而且降低了运维成本 , 起到了降本增效的作用 。
上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构 。 底层是OSS数据湖存储 , 我们通过DLF构建了元数据管理 , 数据血缘管理 , 数据权限管理 。 通过JindoFS+MC的方式 , 实现了数据的冷热分层和本地缓存 。 我们结合MaxCompute和EMR , 成功实现了智能数据构建与数据中台管理 。
相关经验推荐
- 工业机器人|钉科技快评:“大屏化”未必是彩电业的“灵丹妙药”
- 英特尔|交叉滚子轴承在机器人领域广泛应用
- 机器人|日本人制造出来的机器人老婆有多真?手感接近真人,构造非常接近女性人类
- 机器人|未来的AI时代,应该是按理想的最高效率分工,AI的效率比人类高
- 机器人|机器人的操作可不简单,看看这些注意事项
- 伊隆·马斯克|马斯克:未来我会把我的意识通过脑机,转移到机器人上
- 扫地机器人|如果不差钱,这4样东西尽量添置,入住后就会发现实用性极高
- iPhone|果粉心声:iPhone14请放下架子,向中兴Axon40Ultra学习这4点
- 机器|米11 Ultra已上手有两周,简短说一下这个机器给我的最直观使用感受!
- MySQL|我们如何以下方式区分人工智能和机器学习?