整理/以撒
在今年,UE5的新技术逐渐走入了游戏从业者的视野中。不管是官方放出的两次Demo,还是《黑神话:悟空》的新实机演示,都让不少人有了摩拳擦掌的感觉。
与此同时你可能也注意到,许多厂商都已经开始布局UE5了。举几个例子:腾讯天美的两款3A级开放世界项目、NExTStudios的火星题材项目、米哈游的机甲开放世界,以及灵游坊的两款主机产品……等等。
尽管看起来势头很足,但对我们来说,UE5的各项技术仍然显得有些不可捉摸——它到底能做到什么?相比以前有什么样的进步?在具体流程中又是如何实现的?
好吧,这些硬核的技术细节,或许不是谁都能看懂的。但如果你想为新项目的引擎选择找到参考、树立新的学习目标,抑或是单纯地凑凑热闹,了解一下行业前沿知识,都可以试着往下啃啃。
在今天由腾讯游戏学堂举办的第五届腾讯游戏开发者大会(TencentGameDevelopersConference,即TGDC)上,来自EpicGamesChina首席引擎开发工程师王祢,分享了有关UE5的新功能,主要包括Nanite(可制造大量多边形)和Lumen(更好的全局光照效果)等引擎特性。
以下为经过整理的分享内容:
大家好,今天我主要为大家介绍UE5的新功能。当然,UE5有太多新功能了,我会挑大家最关心的Nanite和Lumen多讲一些。
在开发UE5的时候,我们主要有三大目标:提高各方面的渲染品质,让数字世界变得更加动态,这是在提高整个虚拟世界构建和表现的上限;同时我们也希望提供更多更丰富易用的工具、提高开发和迭代的效率、改善用户编辑和创造的体验,也就是降低使用门槛。
相比UE4,UE5做了大量改进。主要包括Nanite和Lumen这些渲染技术,整体构建大世界的工具,以及底层对渲染大量对象生成ProxyMesh的技术。
在协同工作方面,改进包括管理大量资产的性能、编辑器和用户体验、次世代的一些动画技术Chaos、网络同步的物理系统,以及一些全新模块、游戏框架、AI集群系统、进一步完善的Niagara系统以及各种音频模块,像MetaSound之类的功能都有非常大的改善。
01
Nanite在今年5月,我们用古代山谷Demo展示了UE5EA版本的主要功能。首先就是我们主打功能之一的Nanite,它是一种全新的Mesh表现形式,是一种虚拟微表面几何体,解放了此前模型制作对大量细节的限制。在EA版本,Nanite还有很多功能并不完善,我们后续会慢慢改进。
古代山谷Demo
现在,Nanite可以真正用于制作影视级别的资产——几百万,甚至上亿面的模型都可以直接导入引擎、高效渲染,例如照片建模、Zbrush雕刻的高模、CAD数据。我们测试过几万到十几万个百万面以上的实例,它们每个都能在view内能被看到的情况下,在s这样的GPU上跑到60fps、P左右分辨率。
目前,Nanite支持的平台主要是新一代主机和PC。相比去年我们放出来的LumeninthelandofNanite,这项技术的品质和效率都有不少提升,包括磁盘的编解码效率和压缩、支持Lightmap烘焙光照、支持可破碎物体,以及对于光追场景或物理碰撞支持自动生成一些减面、高质量的替代Proxymesh。
另外通过这种方式,我们还可以用解析微分法决定像素误差,使误差肉眼不可见。最后,我们还高效支持了多光源投影,整个Nanite管线基于GPUdriven的管线产生,主要流程我会分这几个部分来讲。
为了让大量对象在场景上高效剔除,我们需要把所有场景数据都送到GPU上。其实从4.22开始,引擎就慢慢在不影响上层使用的情况下,在底层做出改进了,使渲染器成为retainedmode,维护了完整的GPUscene,Nanite在这个基础上做了大量新的工作。
Nanite中cluster的生成
接下来我们简单讲讲Nanite的工作机制。首先在模型导入时,我们会做一些预处理,比如按面的cluster做切分处理。有了这些cluster以后,我们就可以在距离拉远拉近时,做到对每个clustergroup同时切换,让肉眼看不到切换lod导致的误差,没有crack,同时还能对这些不同层级、细节的cluster做streaming,这其实就是Nanite最关键的部分。
cluster的生成主要分以下几步:首先,原始的meshlod0数据进来后,我们会做一个graphpartition,其条件例如我希望共享的边界尽可能少,这样我在lock边界做减面处理时,减面的质量会更高一些;
第二是我希望这些面积尽可能均匀、大小一致,这样我在lod计算误差处理投影到屏幕上时,都是对每个cluster或clustergroup一致处理。我们会把其中一组cluster合并成一个clustergroup,又一次按照“lock的边界尽可能少、面积尽可能均匀”的条件找出,一组组cluster生成group,对这个group内cluster的边解锁,等于把这组group看成一个大的cluster,然后对这组group做对半的减面。
减完面后,我们可以得到一个新的cluster误差,我会对这个减面的group重新做cluster划分。这时,cluster的数量在同一个group里其实就已经减半,然后我会计算每个新的cluster误差。大家要注意,这个过程是循环的,递归一直到最终值,对每个instance、模型只生成一个cluster为止。这里有一个比较关键的点:我们在减面生成每个cluster时,会通过减面算法(QEM)得到这个cluster的误差值并存下。
除此之外,我们还会存group的误差值,这个值其实就是更精细的那一级clustergroup里cluster的最大误差值,和我新一级里产生的每个cluster误差值取maximum得到的值。这样我就能保证这个cluster每次合并的group,去减面到上一级的group里的cluster时的误差值,永远是从不精细到精细慢慢上升的状态。
也就是说,我从最根结点的cluster慢慢到最细的cluster,里面的error一定是降序排序的。这一点很重要,因为它能保证后续选择culling和lod时,恰好是在一个cluster组成的DAG上。因为cluster会合并group,group生成打散以后在下一级里,又会有一个共享的cluster。
有了这个降序排列的误差,我就能保证这个DAG上有一刀很干净的cut,使我的边界一定是跨lod的clustergroup的边界。最后,我们对这个生成的各个lod层级的cluster分别生成bvh,再把所有lod的cluster的bvh的root,挂到总的bvhroot上。
当然,这里还有很多额外处理,我现在没有讲,是考虑到做streaming时的一些分页处理。这个分页可能会对clustergroup造成切割,所以clustergroup,还有一些grouppartition的概念,我们这里不做细化。
另外,对于一些微小物体离得很远以后的情况,我们减到最后一级cluster,其实它还是有个面,那如果场景里非常小的东西位于很远的地方,这又是一个模块化的构成。我们又不能直接把它culling掉,这种情况下,我们会有另外一种Imposteratlas的方式,这里我也不展开讲了。
Nanite裁剪流程
接下来,我们看看整个Nanite在GPU上做裁剪的总体流程,它分为两次裁剪以及光栅化。我们先用前一帧的HZB做了物件层级的Instance裁减,再做了分层级的,我刚刚说的bvh的cluster的分层级裁减。
最后裁减到它bvh的叶子节点,其实就是我们刚才说的clustergroup,然后再对其中的cluster做裁减。裁减完之后,我们就会有一个特殊的光栅化过程,然后我们就能得到新的DepthBuffer,重新构建HZB,再对这个新的HZB做一遍裁减。
前面那次HZB的可见性,我们用了上一帧可见的instance来做,做完之后形成新的HZB,我们再把上一帧不可见的,在这一帧内所有剩下的再做一遍,就能保守地保证没有什么问题。
重新经过光栅化后,生成到新的visibilitybuffer,再从visibilitybuffer经过materialpass,最终合入Gbuffer。具体做culling时会有一些问题,比如刚才cluster生成时我们说到过,生成clustergroup的bvh结构,我们在CPU上不会知道它有多少层。
也就是说,如果我要去做的话,CPU要发足够多的dispatch,这时比如小一点的物件,它空的dispatch就会很多,这种情况下GPU的利用率也会很低。
所以我们选择了一种叫persistentculling的方法,利用一个persistentthread去做culling,也就是只做一次dispatch,开足够多的线程,用一个简单的多生产者、多消费者的任务队列来喂满这些线程。
这些线程从队列里执行时,每个node会在做封层级别剔除的同时产生新的node,也就是bvhnode,Pushback回新的。在可见的children的列表里,我们一直处理这个列表,直到任务为空。
这里的处理分为几种类型:首先在一开始的node里,只有我们开始构建的bvh的节点,直到我一直做剔除,剔除到叶子节点以后,里面是个clustergroup,再进入下一级,就是这个group里面所有的clusterculling。最后cluster并行独立地判断,自己是否被culling掉,这里其实和刚刚lod选择的条件是一模一样的。
还记得我刚才说的error的单调性吧?因为这里的cluster中,所有lod都是混合在一起的,所以我们每个cluster在并行处理时,我不知道父级关系是什么样的,但我在每个cluster上存了自己的误差,和我整个group在父一级上的最大误差,所以这时我就知道,如果我自己的误差足够小,但是我Parent的误差不够小,我就不应该被culling掉。
同理,跟我共处一个clustergroup的这些节点,如果它在我上一级lod里,也就是比较粗的那一级里,那它的error一定不够大,所以上面那一级lod所在的整个group都会被抛弃掉,而选中下一个。
但是下一个里面,其实还是可能会有一些误差太大的——它的误差如果足够大,就意味着它在再下一级更精细的地方,肯定属于另外一个clustergroup。所以它又在下一级的clustergroup里又有一个边界,和它下一级的clustergroup边界接起来会没有接缝,整个cluster的选择就是这样并行做的。
同时,对应自己clustergroup的parent,刚刚我们说了,肯定会被剔除掉。这样就能保证我们能分clustergroup为边界,去对接不同lod层级的cluster,并使经过culling存活下来的cluster来到特殊的光栅化阶段。
Nanite中的光栅化
由于当前图形硬件假设了pixelshadingrate,肯定是高于triangle的,所以普通硬件光栅化处理器在处理非常的微小表面时,光栅化效率会很差,完整并行也只能一个时钟周期处理4个triangle,因为2x2像素的会有很多quadoverdraw,所以我们选择使用自己用
转载请注明:http://www.0431gb208.com/sjszyzl/5818.html