天天资讯：软硬一体优化算力，火山引擎助自动驾驶“绿洲”降本增效

2023-01-14 07:07:06 来源：驱动中国

(资料图片仅供参考)

1月5日,在毫末智行第七届AI DAY上,毫末智行与火山引擎联合打造的“雪湖·绿洲”(MANA OASIS)智算中心正式发布。据了解,MANA OASIS的浮点运算可以达到每秒67亿亿次,存储带宽达到每秒2T,通信带宽方面达到每秒800G。

据介绍,这也是中国自动驾驶业内目前算力最大的智算平台,将更好满足自动驾驶技术研发所要求的大算力、更优小文件存储效率、更高性能存储带宽、更高通讯带宽、并行计算框架以及兼容性等要求。

毫末智行CEO顾维灏表示,自动驾驶车辆在日常的运行和测试过程中会产生大量的数据,而且还需要快速处理产生的数据,这就要求自动驾驶企业需要具备很强的数据处理能力。随着自动驾驶技术研发的深入,越来越多的车企开始建立自己的智算中心。但在建设路径上,除不断补强硬件基础之外,算法等底层优化同等重要,好的优化方案,可以更好发挥现有硬件能力,让智算中心如虎添翼。

毫末智行与火山引擎共同打造的MANA OASIS,即充分基于火山引擎在数据规模和数据处理能力方面的优势,对系统进行了全面优化。具体来说,其系统框架包括两个:超高速并行的毫末文件系统和GPU超算。其中,MANA OASIS的每台服务器配置了8个GPU卡,智算中心第一期已经部署了超过2000个GPU,采用双向Switch连接,具有超宽低时延网络架构。

为了支持多模型训练,毫末智行和火山引擎进行了专门的合作研发,在底层进行专门优化,打造了lego高性能算子库,拥有超过500多个高性能算子,并可以快速适配超过200种网络结构,支持目前业界所有主流的网络模型。在通信方面,实现了All reduce和All to all,除每秒800G的物理带宽之外,还能得到更大的虚拟带宽。

在框架方面,由于大模型数据量非常大,达到千亿级别。常规的训练方式成本昂贵。而通过与火山引擎的合作,毫末智行采用的大模型训练框架,实现了数据、流水、模型的并行,支持SparseMoE混合并行,降低无效计算,并实现多机共享和多任务并行,提高计算效率。在例如车道线大模型,预测模型,标注用的模型等方面,可以同时训练多个任务,节省整体研发时间。

以上各方面的优化,使最终大模型的训练效率提升了100倍左右,可轻松完成千亿参数大模型训练,且百万个Clips(毫末视频最小标注单位)训练成本只需百卡周级别。

毫末智行方面表示,在当前的自动驾驶技术研发过程中,海量的产品数据、超大规模的数据训练、大模型的应用等,都对算力提出了更庞大的需求。

而基于火山引擎丰富的大数据积累和底层技术,MANA OASIS实现的计算、存储、通讯能力,让数据更快速转化成知识,以实现降本增效的目的。毫末智行方面表示,正因为软硬件的同步升级,毫末智行才有能力实现国内量产第一,并且有信心在明年上市国内首个可大规模落地的城市导航辅助驾驶,到2024年上半年,将实现HPilot落地中国100个城市的计划,头部城市落地全场景NOH,实现点点互达。

而随着MANA OASIS智算中心的落地,毫末智行在处理数据方面的效率将会进一步提升,在自动驾驶3.0时代将会占据更大的优势,有望在下一阶段继续实现领跑。

标签：数据处理能力降本增效存储带宽