| 交互体验:更全面、更沉浸
在Web端的基础上,书生·天际3.0将应用方式拓展至VR设备,突破虚实边界的沉浸式交互体验得以实现。
用户戴上VR眼镜,即可在名胜古迹、城市街景或博物馆中自由穿梭、探索,无论是城墙上的砖瓦,还是厂房内的按钮,几乎“触手可及”。
书生·天际3.0可接入VR眼镜等设备,为用户带来沉浸式虚实融合体验
基于书生·天际3.0对VR设备、Web端等多终端设备的实时渲染支持,用户可在重建的三维实景中对场景进行更直观、更自由的编辑。
通过书生·天际3.0,用户可自由探索名胜古迹,体验现实中难以触达的观景角度。图中是对西安鼓楼的实景重建场景
书生·天际曾开创性地实现了百平方公里级城市实景三维建模,以4K级图像精度,准确呈现大规模三维城市场景。本次全面升级中,书生·天际3.0拥有了更全尺度场景的3D建模能力,可覆盖单个物体、室内布局及城市场景,面向更真实、立体的生活及生态空间呈现,助力新型基础设施建设。
依靠数张不同角度照片,即可实现单个物体、室内场景“一键还原重建”
利用少量航拍图像即可高效完成大场景重建训练和实时渲染编辑。图中是对上海外滩附近街区的实景重建场景
| 实景三维重建:更高效、更流畅
相较于上一代模型,书生·天际3.0的综合渲染效率提升了5.84倍。面对不同尺度场景对实时渲染算力需求的区别,结合算力需求与硬件性能,可对计算资源进行弹性调度。实验结果显示,新一代模型既能在单卡下进行实时渲染和交互编辑,同时,渲染性能可随着投入卡数的增加实现线性增长,进一步降低了硬件门槛。
书生·天际3.0综合渲染效率较上一代提升5.84倍
VR等终端设备的接入,对实景三维的成像质量及计算资源合理使用提出了更高要求。只有当FPS(每秒帧数)达到一定的要求,才可减少运动模糊和画面撕裂感,提供更流畅的视觉体验。不同于普通视频流以30FPS为基准,VR设备中的画面须达到90FPS以上,才可有效减少用户眩晕感,保障观看舒适度。
为此,研究人员提出连续渲染静态重用技术,渲染精度较传统方法提升36.93%,保证了成像流畅度。在书生·天际3.0中,室内场景中实现120FPS的流畅表现,在室外场景中则能保持稳定的72FPS,为用户带来身临其境的沉浸式体验。
单帧分立渲染(左)与连续渲染静态重用技术渲染(右)效果对比
VR等设备带来的双目成像需求,对算力使用也提出了全新挑战。传统单目交替渲染方法适应双目成像时,往往带来视差损失。为解决此问题,此前多以加大算力以弥补算法不足。针对现状,研究人员提出首个针对3D高斯(3D Gaussian)渲染的双目去冗融合渲染技术,在不增加额外算力的情况下可实现消除双目视差。
双目去冗融合渲染与传统双目交替渲染效果对比
| 算法系统支撑:更兼容、更有力
沉浸式的高质量虚实交互,得益于算法的全面演进和训练系统的创新支撑。
书生·天际研究团队同通过对Scaffold-GS、Dynload-GS等高斯算法的深度挖掘,提出原创的Octree-GS算法。将八叉树(Octree)这一空间结构引入至3D高斯算法,从多视角图像中学习场景表达,并按照细节层次(LOD)技术将高斯模型划分为多个级别。
在城市级别的大规模场景中,传统高斯算法中渲染的3D高斯数量会随视角拉远而急剧提升,不仅无法保持实时渲染,而且会导致算力需求提升。相反,Octree-GS可根据场景距离和复杂度的高斯筛选机制,在大规模场景渲染中,减少约73.3%的3D高斯数量,在保证高保真渲染结果的同时,实现了从近视角到远视角一致的渲染速度。
Octree-GS算法示意
为赋能训练推理与实景三维平台建设,研究团队构建了首个支撑城市级大场景重建训练和实时渲染的系统——书生·天际训练系统(LandMarkSystem)。通过将算法组件化、模块化,同时对算子进行大量优化,该训练系统实现了对多种算法的有效兼容,可提供更高效的实时渲染能力,为低成本、高质量的大规模场景重建提供了平台支撑。
研究人员对多种算法进行解构,LandMarkSystem目前支持Scaffold GS、Octree GS、Vanilla GS、GridNeRF、InstantNGP、Nerfacto 等6种3D重建算法
基于LandMarkSystem,用户可根据不同场景需求、不同硬件资源条件,选择最高效的算法以及最合适的优化渲染方式,从而使实现更高效、高质量的实景三维重建。
LandMarkSystem执行架构
上海市徐汇区龙文路129号
国际传媒港L1楼
联系我们
comm@pjlab.org.cn
Copyright © 2025 Shanghai Artificial Intelligence Laboratory
沪ICP备2021009351号-1