国产推理芯片上“硬菜”!大模型和边缘计算都不在话下

国产推理芯片上“硬菜”!大模型和边缘计算都不在话下

  • 2023-11-20
  •  1162

关键词: 芯片 人工智能 RISC-V

国产大模型芯片,又有了好消息。

作为“中国科技第一展”,深圳高交会正在如火如荼的举办,4295家企业展出了琳琅满目的高精尖科技成果,历来在高交会发布重磅产品的AI企业云天励飞,一如既往上了盘“硬菜”——国产Chiplet大模型推理芯片DeepEdge10。

这是云天励飞迄今算力最强的旗舰AI芯片SoC,内置自研新一代神经网络处理器NNP400T,通过D2D高速互联Chiplet技术、C2CMesh互联架构实现算力扩展,能够支持千亿级参数大模型,落地于边缘设备和边缘服务器。



而“国产”,当属这颗芯片最吸睛的标签。

制程工艺是国产,基板是国产,D2D Chiplet先进封装架构是国产,RISC-V CPU IP、GPU IP是国产,云天励飞自研的NNP更是国产。

波谲云诡的国际环境中,中国企业采用海外先进芯片技术的可能性不断受限。今天,在国产供应链的襄助下,云天励飞证明了通过多重创新技术的组合拳,自主可控的AI芯片能够满足高算力、大内存的大模型推理需求。


大模型创新爆发时代,

需要什么样的边缘推理芯片?


大模型正在颠覆生产力,海量数据和参数的运算需求、日趋丰富的应用场景带来了全新的计算泛式和计算要求,给AI芯片提出新的挑战。

一方面,多模态大模型成为大势所趋,带动推理算力需求激增;另一方面,OpenAI、微软等接连开放自定义GPT能力,掀起新一股生成式AI应用模型创新热潮,更加分散泛化的多元场景,需要大量边缘推理算力的支撑。

据云天励飞副总裁、芯片产品线总经理李爱军回忆,在推进芯片落地的过程中,云天励飞深刻体会到边缘计算场景存在算力碎片化、算法长尾化、产品非标化、规模碎片化的痛点。

追求单一场景极致PPA(性能、功耗、面积)的传统芯片方式,已经难以适应边缘计算场景下AI落地的需求。大模型的出现,为行业提供了算法层面的解决之道,因而日渐成为大势所趋。

那么让大模型在边缘计算场景实际落地,需要怎样的AI推理芯片?

一些方向已经是业界共识:既要有更高算力,又要增加更多的内存容量、更大的内存带宽,这样才能存得下、搬得快足够多的数据。同时,边缘计算对低功耗、低成本的要求更为苛刻。

除了支持大模型等AI计算任务,AI边缘推理芯片还承担了“落地应用最后一公里”的职责,需要具备较强的通用算力。

针对这些需求,云天励飞自主研发并推出了面向边缘计算全场景、基于国产工艺的大模型推理芯片平台——DeepEdge10。


布局AI应用落地“最后一公里”

人工智能芯片从功能上可以分为训练芯片和推理芯片,前者注重绝对的计算能力,而后者更注重综合指标,是实现AI应用落地终端的“最后一公里”。

“训练不是目的,生产大模型不是目的,千行百业的落地和应用才是最终的目的。”陈宁表示,不论是机器人、无人驾驶汽车智能传感,还是各类智能硬件,甚至脑机接口芯片,都需要大模型的推理芯片,当前国内这个领域还处于“百家争鸣”阶段,云天励飞聚焦在边缘推理计算发力。

本次云天励飞推出的DeepEdge10,就定位于边缘计算全场景应用,内置公司最新的第四代神经网络处理器,打造了Edge10C、Edge10 标准版和Edge10Max 三款系列芯片;出货形态包括芯片、板卡、盒子、加速卡、推理服务器等,可广泛应用于AIoT边缘视频、移动机器人等场景。



云天励飞副总裁、芯片产品线总经理李爱军表示,由于边缘计算的场景呈现出算力碎片化、算法长尾化、产品非标化、规模碎片化的特征,传统的算法开发和芯片都难以适应新一代人工智能边缘计算场景的产品化需求。大模型的出现,为行业提供了算法层面的解决之道;但大模型在边缘计算场景要面向实战发挥作用,则需要AI大模型推理芯片的支持。

简而言之,AI边缘推理芯片不仅要支持大模型等AI计算任务,还需要具备较强的通用算力。其中,Transformer作为语言视觉多模态大模型的最核心架构,云天励飞从2015年开始研发神经网络处理器,在2021年指令集已经实现兼容基于Transformer 架构的新型计算范式。

依托 Deep Edge10创新的 D2D chiplet架构打造的X5000推理卡,已适配并可承载SAM CV大模型、Llama2等百亿级大模型运算。


构建国产推理芯片生态

目前,云天励飞已向国内头部的AIoT芯片设计厂商、智慧汽车芯片设计厂商、服务机器人厂商、国家重点实验室等提供神经网络处理器的IP授权。而边缘计算市场将迎来高速发展。根据IDC预测,到2023年底,全球的边缘计算市场将达到2000亿美金的规模;预计到2026年,边缘计算市场将突破3000亿美金。

为了布局庞大的边缘计算市场,就需要构建自主可控的推理芯片生态。

作为云天励飞AI芯片重要技术特点,DeepEdge10采用了 D2D Chiplet技术和C2C Mesh扩展架构,可实现算力的灵活扩展,可支持千亿大模型,相较总体性能要比上一代1000系列的芯片提升,整体性能提升20倍以上超过20倍。

陈宁介绍,通常百亿级、千亿级的大模型需要极强的计算能力和超低功耗、超低成本,对工艺需求提升到7纳米、5纳米甚至2纳米;结合国产生产工艺现状,云天励飞与合作伙伴从三年前就开始联合技术攻关,定制系列IP,实现在14纳米节点上生产多颗不同计算规格的AI的推理芯片,运营大模型的功能。

在软件栈、工具链方面,云天励飞打造了开放的算法应用平台,提供超过100多种的算法。通过自研芯片,公司沉淀了 “算法芯片化”的核心能力,完成了3代指令集架构、4代神经网络处理器架构的研发,目前自研神经网络处理器已经获得国内顶尖的芯片设计公司采用,生态合作伙伴扩大到近30家,芯片也大规模应用到安防模块等领域。

“我们将立足国产工艺,打造自主可控的AI芯片,虽然这条路非常艰难,但是我们还会坚定不移地走下去。”李爱军表示。


国产最强算力模型亮相

11月16日,百川智能与鹏城实验室宣布携手探索大模型训练和应用,双方展示了合作研发的基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,该模型基于“鹏城云脑”国产算力平台训练,未来可升级至192K,是基于国产算力训练的最长上下文窗口。



众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。虽然国内诸多企业在通用AI芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

据了解,鹏城实验室是网络通信领域新型科研机构,作为国家战略科技力量的一部分,鹏城实验室在国产算力大模型研发和应用等方面一直处于国内领先位置。此次其与百川智能合作研发“鹏城-百川·脑海33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

为了更好地提升“鹏城-百川·脑海33B”上下文窗口长度和模型整体性能,研发人员对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,提升了数据质量;在训练架构上,通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术,对Transformer模块进行深度优化,确保模型稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的RLHF对齐技术,有效提升模型内容生成质量和安全性。

来源:贤集网