GPU激发半导体全产业链创新活力

2024-07-07
关注
“我们需要大量的HBM(高带宽存储器),目前正在与三星、SK海力士和美光协商,我们已经收到了这三家公司的产品。英伟达的首席执行官黄仁勋说了这句话。依靠GPU,英伟达如火如荼,这让世界前三的存储芯片制造商争相抛出橄榄枝。   目前,生成人工智能的浪潮正在飙升,这使得GPU大力推动了整个半导体产业链的更新,成为存储市场的“救命稻草”,并在一个季度内扭亏为盈。而且GPU驱动的芯片行业也不止这些。   存储芯片扭亏为盈的“救世主”   自2021年以来,存储芯片行业已进入近两年的下行周期,这也导致存储芯片制造商利润持续下降,甚至一度亏损。例如,2023年,三星的综合营业利润为6.6万亿韩元,较去年同期下降84.86%。SK海力士累计营业亏损7.7303万亿韩元,净亏损9.1375万亿韩元。直到2023年第四季度,两大仓储厂商才逐渐恢复盈利能力。扭亏为盈的关键是GPU的爆炸性增长。   GPU对存储带宽和容量的需求很高,特别是在高性能计算、人工智能和图形处理等领域。GDDRGPU最需要的是(图形处理器和高性能计算模块的显存类型)和HBM的高带宽、低功耗和低延迟。各大存储芯片企业纷纷开始研究这两类存储芯片。   在接受《中国电子报》采访时,芯谋研究企业服务部主任王笑龙表示,为了满足GPU对高带宽的需求,HBM技术通过堆叠内存芯片和使用硅中介层直接连接到GPU,大大提高了内存带宽。HBM2随着GPU需求的增长、HBM2E甚至最新的HBM3迭代版本将继续推出,进一步提高带宽和容量,降低功耗。   在GPU市场需求的引导下,各大存储芯片企业的GDDR和HBM订单都很软。SK海力士最近表示,根据今年年底的生产能力,HBM内存产能的分配已经完成。三星也不甘示弱,称自己的HBM订单已售罄,预计明年HBM内存供过于求。美光还表示,2025年HBM内存供应谈判已基本完成,预计HBM内存将在2024年9月结束的本财年中带来数亿美元的收入,而在2025年,相关业务的销售预计将增加到数十亿美元。   在产能方面,为了满足HBM3E的内存需求,SK海力士计划大幅增加1bnm工艺DRAM的内存产能。到今年年底,目标将1bnm内存晶圆投影量增加到9万片,明年上半年将进一步增加到14~15万片。为此,SK海力士计划将位于京畿道利川市的M16内存晶圆厂升级为1bnm工艺。三星预计到2024年底将使用所有现有设施。新的P4L工厂计划于2025年完工,15号生产线工厂将从1Y纳米工艺过渡到1bnm及以上工艺。   在下一代技术方面,SK海力士计划将HBM新产品的供应周期从2年加快到1年。此外,HBM4(第六代)和HBM4E(第七代)的技术开发和量产也计划在2025年和2026年完成。三星还表示,HBM4内存计划于明年完成开发,2026年实现量产。美光已经开始样品12层的HBM3E内存,预计将成为2025年业绩的重要驱动力。   据Mordor说 Intelligence预测,从2024年到2029年,HBM市场规模预计将从约25.2亿美元飙升至79.5亿美元,预计复合年增长率将高达25.86%。   池宪念说:“不仅仅是GDDR和HBM,各大企业也在探索新的存储介质,以满足GPU不断飙升的存储需求。例如,该行业已经开始探索3D XPoint、ReRAM(电阻随机存取存储器)、PCM(相变存储)等新型非易失性存储技术有望提供接近DRAM的性能,同时保持数据持久性,适用于GPU密集型应用中的快速存储和数据交换。”   CPU与GPU齐头并进,深度融合   在之前的台北电脑展上,英伟达,AMD、英特尔首席执行官的演讲离不开GPU。“明争暗斗”发布了CPU与GPU协调的最新解决方案,性能增量惊人。可见GPU对CPU的提升作用。   CPU是负责程序控制、顺序执行等操作的中央处理器,是信息处理和程序运行的最终执行单元。GPU是图形处理器。加入系统后,GPU可以在CPU的控制下协同工作,共享CPU原本负责的部分工作,特别是在需要处理大量数据的领域,如图形渲染、3D图形加速和大规模并行计算。这使得CPU能够利用更多的资源来执行其他任务,提高系统的整体性能。因此,如何促进CPU与GPU的进一步合作,提高系统的整体性能和效率,已成为各大CPU企业关注的焦点。   为此,英伟达,AMD、英特尔等国内外领先企业首先想到的方法是开发CPU和GPU的异构计算平台。NVLinkk通过开发、CCIX、CXL和Gen-Z等高速互联技术加强了CPU与GPU之间的数据传输速度和效率,使两者能够更紧密、更高效地合作。   例如,黄仁勋提出,英伟达将于2026年推出最新的Vera CPU和Rubin GPU,并组成Vera Rubin超级芯片有望取代现有的Grace 超级芯片Hopper。此外,Rubin平台还将配备新一代NVLink 6 Switch,提供高达3600 GB/s的连接速度和高达16000 GB/s的CX9 SuperNIC组件,保证数据传输的高效性。   半导体行业专家池宪念除了建立异构计算平台外,还表示要优化软件和编程模型。为了解决CPU和GPU之间的通信瓶颈,企业开发了CUDA等新的编程模型和数据库、OpenCL、DirectX、Vulkan、oneAPI等,使开发者能够更方便地编写跨CPU和GPU的并行程序,充分利用两者的计算优势。在某些应用场景下,企业还可以整合特定的硬件加速器(如人工智能加速器、网络加速器)与CPU和GPU一起工作,实现特定任务的终极加速,满足云计算、边缘计算、数据中心等领域的特定需求。   此外,促进系统架构的创新也是关键环节。例如,AMD推出的APU(加速处理器)将CPU与GPU集成在同一芯片上,实现更紧密的集成和更低的延迟,为轻量级计算任务提供有效的解决方案。英伟达还发明了将GPU与CPU相结合的新架构,两个处理器可以独立运行。原本需要100个时间单位才能完成的任务,现在可能只需要1个时间单位就可以完成。此外,该架构可实现高达100倍的加速计算,而功率仅增加3倍左右,每瓦性能仅比单独使用CPU增加25倍,成本仅增加50%左右。此外,RISC-V体系结构还在探索包括CPU和GPU核心在内的集成设计,有望在性能和能效方面取得新的突破。   GPU不断创新整个产业链   GPU的市场需求也成为最上游半导体设备、散热技术和后包装技术更新迭代的关键推动力。   在半导体设备方面,英伟达之前发布了新的光刻技术culitho,可以使计算光刻更加“聪明”。以前的计算光刻依赖于CPU服务器集群,但现在culitho可以实现500套DGX H100(包括4000Hoper) GPU)工作量与4万台CPU运算服务器相同,但速度快40倍,功耗低9倍。可以看出,GPU加速后,光刻工作的计算时间可以从两周减少到八小时。500DGX可用于台积电 culitho加速用于H100系统,将功率从35MW降低到5MW,从而取代4万台用于计算光刻的CPU服务器。黄仁勋表示,英伟达将继续与台积电、ASML、Synopsys合作,将先进工艺推向2纳米及更高精度工艺。   英伟达决定在新发布的GPU产品B100上采用液冷散热方案,进行散热技术创新。黄仁勋曾公开表示,液冷技术是未来散热技术的发展方向,有望引领整个散热市场进行全面创新。   与传统的风冷散热技术相比,液冷散热技术具有更高的散热效率、更低的能耗和更低的噪声。随着人工智能计算能力和功耗的不断提高,当单个高计算能芯片的功率达到1000W时,现有的散热技术将面临革命性的变化,液冷方案几乎成为必要的选择。   民生证券表示,随着人工智能产业的快速发展,液冷服务器的渗透率逐渐提高。从发展趋势来看,预计到2025年液冷服务器渗透率将保持在20%-30%左右。   池宪念说,包装技术也可以提高GPU的性能,比如通过倒装芯片包装(FCBGA)CPU等关键部件的应用得到了改进、GPU的冷却水平,提高了信号传输速度和电气性能;扇形晶圆级封装(FOWLP)可在相同的包装尺寸内容纳更多的存储芯片,提高带宽,同时减小GPU的实际尺寸或为其他组件腾出空间,这对提高GPU的集成度和性能至关重要;CoWoS-L包装技术允许多芯片集成在单个包装中(如GPU)、HBM等。),通过硅中介层实现高速连接,不仅提高了性能,而且优化了散热路径。同时,GPU制造商正在探索3D包装技术,通过堆叠多个芯片或Chiplet(小芯片)来构建系统,不仅可以增加功能,还可以通过缩短信号路径来降低功耗,提高散热效率。   总体而言,GPU的快速发展已成为半导体产业的重要驱动力之一,不仅促进了半导体设计和制造技术的不断创新,而且促进了整个产业链的协调发展,促进了半导体制造商增加投资,提高生产能力,优化技术,以满足GPU日益增长的需求,也为整个科技产业带来了更广阔的创新空间和发展机遇。   (来源:中国电子报、电子信息产业网)
您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘