闻泰科技|揭秘阿里云神龙团队拿下 TPCx-BB 排名第一的背后技术( 二 )


图3 MRACC-Spark的SQL引擎优化
五 近网络RDMA优化 2021年杭州云栖大会上 , 阿里云发布第四代神龙架构 , 提供业界首个大规模弹性RDMA加速能力 。 RDMA是一种高性能网络传输技术 , 提供直接内存访问的方式 , 数据传输bypass Kernel , 从而能减少CPU的开销 , 提供低时延的高性能网络 。 在分布式计算中 , shuffle过程必不可少 , 且消耗较多的计算和网络资源 , 是大数据分布式计算的优化重点 。 针对Spark 内存计算在shuffle阶段数据交换特点 , 可将shuffle数据交换变为memory-network-memory的模式 , 充分利用RDMA用户态内存直接交互、低延时、低cpu消耗的特点 , 最终在tpcxhs等端到端benchmark上获得了30%的性能提升 。
图4 MRACC-Spark的eRDMA近网络优化插件
六 性能优化结果 最终 , 在TPCDS 10T数据集上 , 相比最新的Spark3.1版本性能提升2.19倍 。 在TPCx-BB上相比第二名领先高达41.6% 。

图5 TPCDS及TPCx-BB的数据效果
七 展望 目前 , 所有这些优化 , 我们都封装成插件形式交付给客户 , 客户代码基本上不需要修改 , 方便客户直接使用 。
未来我们将持续将我们软硬件一体化极致性能优化能力服务阿里云的大数据客户 , 此外我们将在软硬件一体化性能优化能力上持续迭代 , 构建性能更高、成本更低的MRACC神龙大数据加速服务能力提供给广大用户 。
附:TPCx-BB介绍
TPCx-BB是由国际标准化测试权威组织(TPC)发布的基于零售业场景构建的端到端大数据测试基准 , 支持主流分布式大数据处理引擎 , 模拟了整个线上与线下业务流程 , 有30个查询语句 , 涉及到描述性过程型查询、数据挖掘以及机器学习的算法 。 TPCx-BB的测试具有数据量大、特征复杂、来源复杂等特点 , 与真实业务场景较为接近 , 对各行业的基础设施选型有着重要参考意义 。
TPCx-BB的测试结果 , 可以全面准确的反映端到端的大数据系统的整体运行性能 。 测试涵盖了结构化、半结构化和非结构化数据 , 能够从客户实际场景角度更全面的评估大数据系统软硬件性能、性价比、服务和功耗等各个方面 。
作者 | 神龙加速计算团队
【闻泰科技|揭秘阿里云神龙团队拿下 TPCx-BB 排名第一的背后技术】本文为阿里云原创内容 , 未经允许不得转载 。

相关经验推荐