GPU,巨变前夜

2023-12-07
关注

3D图像一直是芯片发展的推动力之一。从上世纪九十年代直到今天,以游戏、电影等为代表的高性能图像渲染应用的蓬勃发展,直接让GPU芯片成为了一个新的芯片品类。从这个角度,我们认为高性能3D图像渲染以及3D图像学的发展一直在驱动着GPU芯片品类的发展。


在3D图像学中,对于真实场景和物体的高精度建模/渲染一直是整个学界梦寐以求的目标之一。在过去几十年中,3D场景和物体建模的主流方式是基于多边形(ploygon mesh)的建模,即把一个3D建模的物体表面近似为由大量多边形组成,而多边形数量越多,则3D建模和真实物体/场景越接近。


在具体3D模型创建方面,则是由3D建模人员创建模型。在这样的情况下,多边形数量一方面限制了渲染的性能(即主流设备难以渲染多边形足以表现全部真实场景细节的模型),另一方面从建模方面,3D建模人员也难以完成含有真实物体或者场景所有细节的3D模型。因此,我们目前看到的主流3D模型都和现实的真实场景有显著区别。


最近几年,随着人工智能的发展,以辐射场为代表的新的3D图像学正在挑战多边形建模的传统3D范式,而今年下半年3D图像学界更是由于几篇重磅研究的发表,而进入了一个快速发展阶段,真实场景建模正在以前所未有的速度接近我们。


在这几个里程碑式的研究中,第一个是由法国INRIA和德国马克思普朗克研究所完成的3D Gaussian Splatting(3D GS)。3D Gaussian Splatting是辐射场建模的一种,它和传统的多边形建模的区别在于:


第一,其3D场景的建模单位不再是多边形,而是形状和颜色可变的Gaussian Splatting (GS),通过大量GS的叠加,可以高精度还原3D场景中的细节。


第二,其建模过程不再是由3D建模人员完成,而是用了人工智能的方式,具体来说建模过程是对需要具体的场景拍摄不同视角的图片,然后这些图片通过人工智能的优化方法可以完成整个场景的3D GS建模,这样就避免了建模过程对于最终场景精度的限制。最后,3D GS的渲染速度可以很快,在现有的桌面GPU上,可以实现100 fps的渲染。当然,由于目前的GPU还没有针对3D GS做优化,这个速度和效率肯定还有很大的提升空间,但是这样的渲染速度和精度已经足以让3D GS进入实用。


使用3D GS实现的超高精度3D场景建模和渲染


第二个重要研究是由Nvidia发表的Adaptive Shells for Efficient Neural Radiance Field Rendering。


神经辐射场(Neural Radiance Field,NeRF)和3D GS类似,都是可以通过场景的多角度图片来完成场景的超高精度建模,并且其建模方式也是通过人工智能模型训练的方法来完成。NeRF和3D GS的主要不同在于,其建模方法是通过神经网络来完成,因此其渲染过程就是等价于神经网络的推理过程。NeRF出现已经有了数年,但是直到今年Nvidia的研究发表,才真正实现了GPU上高帧率(100-200fps)的高质量NeRF渲染,因此今年可望是NeRF渲染真正进入实用的开始。



人工智能图像学对于GPU的需求


我们认为,人工智能图像学对于GPU提出了新的需求。


首先,在基本的NeRF或者3D GS的渲染中,传统的GPU中的多边形渲染流水线已经无法高效支持,因为NeRF和3D GS的渲染需要一些重要的新计算。对于NeRF来说,其场景建模信息都包含在训练过的神经网络中,神经网络的输入就是用户当前的视角,输出则是场景在视角下的2D图像。


因此,其渲染过程其实就是根据用户的视角来完成神经网络的推理计算。而在3D GS中,具体的渲染过程则是把整个场景分成多个块(tile),每个块中根据当前视角首先排序选出对于视觉影响最大的N个GS,之后再仅仅针对这些GS做渲染,从而可以实现高效率。我们可以看到这些都和当前的多边形渲染流水线有较大不同,为了能高效支持这些3D图像学的新范式,GPU需要能高效支持这些新计算。


另外,在新的3D图像学是由人工智能驱动的这一潮流下,我们势必会看到3D图像渲染和人工智能的进一步结合,例如在NeRF和3D GS的场景建模中加入基于神经网络计算的动画或者编辑(光影变化等),这些又进一步说明目前的GPU上的多边形渲染流水线对着这类新图像渲染范式已经无法高效支持。


GPU新架构呼之欲出


我们认为,这些新的超高精度3D图像学会推动新的GPU架构发展。


从桌面和服务器GPU芯片角度,我们认为GPGPU架构会得到进一步的推广。Nvidia主导的GPGPU在人工智能浪潮的前几年(2012-2017)是Nvidia能够占据人工智能霸主地位的核心,因为GPGPU的开放接口可以让GPU去做人工智能计算。在这之后,随着人工智能应用进入主流地位,Nvidia开始给人工智能做专用优化,引入了包括Tensor Core等重要新架构,换句话说人工智能在GPU上已经不再主要依赖其GPGPU思路,而是更多依赖其人工智能架构设计。然而,随着新的3D图形学的发展,GPGPU又会重新进入聚光灯下。


从芯片架构角度来说,从宏观上这意味着GPGPU的进一步进化以及和人工智能的融合。之前,GPGPU允许用户去调用3D图形计算的单元去做其他非图形的计算;而随着新的3D图形学的发展,需要GPGPU能进一步开放图形渲染单元,让图形渲染单元更加灵活,从而能支持新的3D建模范式的高效渲染。我们认为,芯片架构层面,对于这样新3D图形学范式的支持,有三方面的需求。


第一个方面是打通渲染流水线和人工智能引擎。


由于神经网络的计算在新的3D图形学中起了极其重要的角色,如何把图形渲染单元和GPU中的人工智能引擎打通,将是支持这类新3D图形学渲染的核心需求。例如,在芯片架构设计中,需要能够让图形渲染单元和人工智能引擎之间实现有效通信以及互相高效调用,从而能充分支持这样的渲染需求——像NeRF这样的建模方法中,每一帧计算都需要去运行一次神经网络推理,在高分辨率的时候神经网络会非常复杂,而高帧率则需要神经网络延迟有很高的需求,在这种情况下需要图像渲染和人工智能引擎充分打通。


第二个方面是对于这些新的范式,如何实现硬件优化。


对于基于多边形传统3D图形学的渲染加速,GPU已经有了数十年的积累,因此从硬件上几乎已经把优化做到了极致,然而对于NeRF或者3D GS这样的新范式,硬件优化目前仍然不存在。第一步,我们可以把目前已有的针对多边形渲染的优化应用到这类新3D图形范式上,例如分块(tile)渲染以实现并行处理,以及流水线计算以降低延迟,等等。更进一步,未来会出现针对这些新3D图形学范式的专门优化,从而可以将渲染效率进一步提高。


第三个方面是如何提供灵活的用户接口。


3D新图形学方兴未艾,在可预计的未来仍然会高速发展,因此如何能给用户提供接口,从而可以让用户灵活利用和配置GPU上的计算单元,从而用户可以根据自己独特的设计来配置GPU上的渲染流水线以实现高效率。这样的可配置性对于培养新3D图形学的生态将会是至关重要,如果想要重复Nvidia在人工智能浪潮中的成功,那么就需要在新3D图形学算法尚未最终尘埃落定的时候,提供足够支持以培养用户生态;如果想要等到算法技术已经足够成熟后再开始提供支持,就会站在非常不利的位置。


比较桌面和服务器GPU的两大巨头Nvidia和AMD在这方面的状态,我们认为Nvidia由于其在人工智能和GPGPU领域的前期投入,目前毫无疑问站在非常领先的位置——例如,NeRF和3D GS绝大多数的渲染代码和benchmark都是跑在Nvidia的GPU上,这也是其生态强大的一个例子。


当然,也并不是说目前Nvidia都已经把一切做到尽善尽美;3D GS中,研究人员就提到了CUDA的GPGPU计算库虽然能实现高效计算,但是在做渲染的时候存在一定的兼容性问题。这也对应于我们上面提到的GPGPU需要更进一步,能和人工智能引擎打通并且提供灵活的用户接口。


对于AMD来说,在过去一直处于追赶者的地位,目前来说,由于其软件生态的相对不完整,预计在新3D图形学逐渐变成主流的前几年,AMD仍然将处于追赶者的地位。但是,如果AMD不想错过这一波新的3D图形学的机会的话,一方面需要在软件生态上更快速地追赶,另一方面则需要在硬件架构上做相比于Nvidia更加果断的优化来支持这类新的3D图形学。


除了桌面/服务器GPU之外,事实上移动端GPU对于这类新3D图形学也很重要,因为未来ARVR这类使用移动GPU的应用也预计是这样的新3D图形学的最关键场景。从移动端GPU来说,最关键是如何实现高效率支持,确保在电池和散热允许的情况下实现最佳质量和帧率。


从芯片架构角度,一方面,我们预计也会看到GPU和人工智能引擎在移动SoC上的更高效通信以满足图形学上的需求——这将是一个很有趣的架构设计,因为在不少SoC中GPU和人工智能引擎都是完全分离的IP,有些SoC上的GPU和人工智能引擎甚至可能会由不同的公司设计,因此如何确保两者之间能互相通信将是重要的课题,甚至可能会有专用的通用接口协议出现。


另一方面,移动GPU上对于效率和灵活度的取舍,一般都会更偏向于效率,因此如何在算法上提供高效支持,将会是移动GPU优化的重点。


本文来自微信公众号:半导体行业观察 (ID:icbank),作者:李飞

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标浮台在线测系统 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

微科技

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

马斯克的xAI发布首款产品:比ChatGPT更厉害?

提取码
复制提取码
点击跳转至百度网盘