导航菜单

IBM14nm模拟AI芯片效率达14倍,GPU领域竞争格局如何?

导读 当下的AI赛场上,英伟达无疑是最闪耀的一颗明星。英伟达在生产能够执行复杂AI任务的芯片方面,建立了几乎无法撼动的领先地位。超异构计算,确实为国产芯片的“算力之困”撕

在当前的AI舞台上,英伟达无疑是最闪亮的明星。

十多年来,英伟达在生产能够执行图像、面部和语音识别等复杂人工智能任务的芯片方面几乎建立了无可争议的领先地位。

然而,一切总是会改变的。

近期,随着谷歌、IBM等巨头开始在芯片上联手,GPU领域的竞争格局开始发生一些微妙的变化。

近日,IBM推出了全新14nm模拟AI芯片,其效率比领先的GPU高14倍。

其最大的亮点是利用生物大脑中运行的神经网络的关键特征来降低能耗。 从而最大限度地减少人们花在计算上的时间和精力。

同样,科技巨头谷歌也在8月底的Google Cloud Next 2023大会上发布了全新的AI芯片CloudTPUv5e,该芯片专为大型模型训练和推理而设计。

具体来说,CloudTPUv5e允许多达256个芯片互连,聚合带宽超过400Tb/s,INT8性能达到100petaOps。

根据速度基准,在 CloudTPUv5e 上训练和运行 AI 模型的速度提高了 5 倍。

可见,各大巨头并不甘心在算力问题上永远被NVIDIA“卡住”,纷纷开始纷纷推出自己的芯片,对NVIDIA的GPU霸权发起“围攻”。

那么,面对英伟达的无底护城河,这样的挑战前景如何呢?

“霸主”的先见之明

英伟达还能继续统治多久?

从某种程度上来说,决定这件事的不仅仅是英伟达自身的创新能力,还有技术发展的内在规律。

摩尔定律作为计算机行业的黄金法则,一直指导着芯片的发展。

然而,随着芯片技术升级速度放缓,围绕这一法律的争议也在扩大。

所谓摩尔定律意味着集成电路上可容纳的晶体管数量大约每18至24个月就会增加一倍。

然而,随着芯片技术的不断发展,摩尔定律正逐渐遇到瓶颈。

中投咨询曾透露,由于芯片尺寸、光刻技术、隧道效应、功耗及散热、供电能力等问题的物理限制,从5nm到3nm再到2nm的间隔已经超过2年。

面对这种情况,就连以“剑术精湛”着称的黄仁勋也无可奈何地宣称“摩尔定律已死”,物价上涨已经超出了他的控制范围!

去年发布的AD102(RTX4090)芯片尺寸为608mm,仅比628mm的GA102(RTX3090Ti)略小。

按照这个技术路径,传统GPU的天花板似乎越来越近了。

正因为如此,各家巨头在解决算力问题的同时,也在积极“另辟蹊径”,寻找不同于传统路线的解决方案。

前面提到的模仿人脑神经结构的IBM类脑芯片就是这样的尝试之一。

然而,面对传统芯片的瓶颈,业界有很多不同的解决方案,比如量子芯片、光子芯片、类脑芯片等。 然而,正如GPU取代CPU成为当今AI计算的主力一样,技术路径也有很多。 博弈中往往会出现一条“最优”路径,最终获​​胜,成为新时代通用的芯片范式。

这样的“最优”路径应该是兼顾技术成熟度、通用性和市场需求的解决方案。

从目前情况来看,量子芯片、光子芯片、类脑芯片仍处于研发阶段,其技术成熟度还有待实践检验。

此外,量子芯片、光子芯片、类脑芯片等都是针对特定计算问题而设计的,在通用性和兼容性方面往往存在一定的不足。

例如,量子芯片适合解决一些经典计算机难以解决的重要问题。 光子芯片适合解决一些高速数据处理和传输问题,如光通信、光互连、光计算等。

综合比较,目前最有可能胜出的方案是多芯片模块组合的超异构计算。

新曲目

什么是超异构计算?

简单来说,它就像一个拼图游戏,不同的芯片模块(如CPU、GPU、FPGA等)按照不同的规则和目标拼接在一起,形成不同的计算解决方案。 处理不同类型的数据和工作负载的技术。

超异构计算的目的是优化计算,即在性能、功耗、延迟等方面达到最佳平衡。

CPU同构计算阶段,100%的工作由CPU完成;

但在GPU异构阶段,80%的工作由GPU完成,CPU只完成剩下的20%的工作;

在超异构计算阶段,80%的工作由各种效率更高的DSA完成,而GPU只完成剩余20%工作的80%,即16%的工作,而剩下的4%交给CPU。

这里的DSA是针对特定领域和场景的计算单元,可以实现高效的数据处理和算法加速。 例如,神经网络处理器(NPU)、图形处理单元(GPU)、数字信号处理器(DSP)、视觉处理器(VPU)、安全处理器(SPU)等。

这些专用芯片比传统 GPU 更快、更节能、更小且更灵活。

但同时,高度专业化的DSA并不适合其他任务。 因此,还需要一些GPU和CPU来辅助和协调这些芯片,完成剩下的计算工作。

这样,通过“专人专人”的分工和匹配,芯片可以实现计算的优化,即在性能、功耗、延迟等方面达到最佳平衡。

当面对AI大模型、自动驾驶、元宇宙等新兴领域和应用场景时,AI要做的事情越来越多,难度也越来越大,传统同质芯片已经跟不上步伐人工智能。 为AI提供足够的计算能力和速度是很困难的。

超异构计算可以提供更高的灵活性和可扩展性,可以根据不同的数据和工作负载动态分配和调度计算资源,实现自适应和智能计算。

具体来说,超异构计算可以分为静态超异构计算和动态超异构计算两种模式。

静态超异构计算是指在设计阶段就确定各个处理器之间的分工和协作,适合一些稳定且可预测的场景,例如视频编解码、图像处理等;

动态超异构计算是指在运行时根据实时数据和工作负载动态选择和调度最合适的处理器。 适合一些比较变化的场景,比如云计算、边缘计算、物联网等;

通过这种“动静结合”的方式,超异构计算可以灵活调整负载,实现高效的算力调度。

此外,在成本方面,超级异构计算也是降低大算力芯片成本的有效解决方案。

随着传统GPU芯片尺寸不断缩小,人们需要更多的研发投入和更精密的制造设备,从而导致成本不断上升。

知名半导体研究机构Semiengingeering计算了不同工艺下芯片的成本。 其中,7nm节点的成本达到了2.97亿美元;

然而,超异构计算凭借多芯片之间的灵活分工和协作,巧妙地解决了这个问题。

用一个形象的比喻来说,传统的GPU芯片就像一辆跑车。 如果想让它跑得更快,就需要不断改进发动机、轮胎、刹车等部件,这样制造成本就会成倍增加。

超异构计算就像一辆多功能汽车。 它可以根据不同的路况和需求切换不同的驾驶模式,例如越野、运输、载客等,这样就不需要盲目地改进发动机(缩小芯片尺寸)来提高性能。

弯道超车

正是因为这样的优势,超异构计算不仅突破了传统GPU的瓶颈,也为国产大功率芯片提供了“弯道超车”的历史机遇。

目前来看,在超异构计算的赛道上,NVIDIA等巨头的布局也非常积极和全面。 他们推出了Hopper超级芯片,与GraceCPU和BluefieldDPU集成,形成完整的超异构系统。

但国内厂商也开始朝这个方向努力。 例如,华为推出了鲲鹏920处理器,这是一款基于ARM架构的高性能CPU,可与华为自研的升腾AI芯片、昆仑AI芯片搭配使用。 实现异构协作,支持云、边、端等多种场景。

还有一些国内厂商也在研发自己的超异构芯片。 例如,紫光展锐推出虎贲T7520处理器,这是一款集成了CPU、GPU、NPU、ISP等多个计算单元的超异构芯片。 专为5G终端设计。

总体而言,超异构计算能否为国产芯片厂商提供弯道超车的机会主要取决于以下因素:

·国内芯片厂商在CPU、GPU、DPU、FPGA等不同类型计算单元上的技术水平和竞争力,以及它们之间的协作和优化能力。

·国内芯片厂商在高速互连和先进封装(如2.5D和3D堆叠技术)方面的创新能力和成本控制能力,以及与不同工艺节点和架构的兼容性和扩展性。

·国内芯片厂商在统一软件平台上的开发能力和生态建设能力,如支持多种异构设备的编程框架和管理平台,以及适应不同场景和应用的能力。

在这三个方面,目前国内企业虽然取得了一些探索和进步,但总体而言,仍然面临着相当大的挑战。

例如,我国各类计算单元的技术水平还存在一定的短板。 例如,华为鲲鹏920处理器虽然在性能上有所提升,但在兼容性和生态方面仍然存在不足。

在高速互连和先进封装方面,国内芯片厂商尚未完全掌握2.5D、3D堆叠等关键技术,仍依赖国外供应商。

目前国内厂商最大的突破和最具潜力的方向是软件平台的开发能力。

因为超级异构计算的硬件多样性和复杂性给开发者带来了巨大的挑战。

如果有一个统一的软件平台,能够屏蔽底层细节,提供高效的编译、调度、优化等功能,就可以大大减轻开发者的负担,提高超异构计算的可用性和普及度。

现阶段阿里云异构计算产品家族,包括GPU云服务器、FPGA云服务器、弹性加速计算实例EAIS等,提供了一系列异构计算服务和解决方案。

华为Atlas异构计算平台基于自研升腾AI处理器,还提供从芯片到云服务的全栈异构计算解决方案。

综合考虑上述因素以及英伟达自身研发能力的“动态变量”,未来芯片市场的竞争格局将大致呈现以下情况:

未来五年,国内芯片厂商在超异构计算方面的竞争水平将得到一定程度的提升,并能在解决部分算力的“卡脖子”问题上取得突破,但无法彻底摆脱对Nvidia等国外巨头的依赖。

在一些特定场景和应用中,国内芯片厂商可以有效与英伟达等巨头竞争。 例如,在5G、物联网、边缘计算等领域,国内芯片厂商可能会推出更适合本土化需求和环境的超差异化芯片。 计算解决方案。

可以说,超异构计算确实为国产芯片的“计算难”打开了一个缺口,但从长远来看,还需要彻底解决“卡脖子”问题,形成对等的计算能力。与Nvidia等巨头竞争,还有很长的路要走。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: