提速6倍，VR可用，书生·天际3.0实景三维大模型离你更“近”了

2024-08-28

书生·天际3.0让用户和生成实景更贴近，也进一步缩短了从技术突破到落地应用的距离。

2023年7月，上海人工智能实验室（上海AI实验室）联合多家机构发布的书生·天际（LandMark）实景三维大模型以原创技术突破，首次实现城市级100平方公里全范围实时渲染。

一年多以来，围绕“降低门槛、拓展应用”，研究团队持续探索技术创新，对模型进行升级迭代。2024年3月，书生·天际2.0实现“单卡可用、实时渲染”；日前，书生·天际3.0开源发布，实现了渲染效率提速近6倍，同时将应用方式拓展至VR设备，以专用大模型的技术突破，赋能生产力提质增效。

同时发布的书生·天际训练渲染系统（LandMarkSystem），可兼容多种算法和硬件资源，支持多样化高质量实景三维重建，满足不同用户的应用需求。未来，在城市规划、智慧文旅、游戏开发、影视制作、具身智能环境模拟等领域，书生·天际具备广阔的应用潜力。

书生·天际3.0的算法和系统陆续开源，并提供免费商用。

书生·天际算法代码开源：https://github.com/InternLandMark

书生·天际系统开源代码链接：https://github.com/InternLandMark/LandMarkSystem

| 交互体验：更全面、更沉浸

在Web端的基础上，书生·天际3.0将应用方式拓展至VR设备，突破虚实边界的沉浸式交互体验得以实现。

用户戴上VR眼镜，即可在名胜古迹、城市街景或博物馆中自由穿梭、探索，无论是城墙上的砖瓦，还是厂房内的按钮，几乎“触手可及”。

书生·天际3.0可接入VR眼镜等设备，为用户带来沉浸式虚实融合体验

基于书生·天际3.0对VR设备、Web端等多终端设备的实时渲染支持，用户可在重建的三维实景中对场景进行更直观、更自由的编辑。

通过书生·天际3.0，用户可自由探索名胜古迹，体验现实中难以触达的观景角度。图中是对西安鼓楼的实景重建场景

书生·天际曾开创性地实现了百平方公里级城市实景三维建模，以4K级图像精度，准确呈现大规模三维城市场景。本次全面升级中，书生·天际3.0拥有了更全尺度场景的3D建模能力，可覆盖单个物体、室内布局及城市场景，面向更真实、立体的生活及生态空间呈现，助力新型基础设施建设。

依靠数张不同角度照片，即可实现单个物体、室内场景“一键还原重建”

利用少量航拍图像即可高效完成大场景重建训练和实时渲染编辑。图中是对上海外滩附近街区的实景重建场景

| 实景三维重建：更高效、更流畅

相较于上一代模型，书生·天际3.0的综合渲染效率提升了5.84倍。面对不同尺度场景对实时渲染算力需求的区别，结合算力需求与硬件性能，可对计算资源进行弹性调度。实验结果显示，新一代模型既能在单卡下进行实时渲染和交互编辑，同时，渲染性能可随着投入卡数的增加实现线性增长，进一步降低了硬件门槛。

书生·天际3.0综合渲染效率较上一代提升5.84倍

VR等终端设备的接入，对实景三维的成像质量及计算资源合理使用提出了更高要求。只有当FPS（每秒帧数）达到一定的要求，才可减少运动模糊和画面撕裂感，提供更流畅的视觉体验。不同于普通视频流以30FPS为基准，VR设备中的画面须达到90FPS以上，才可有效减少用户眩晕感，保障观看舒适度。

为此，研究人员提出连续渲染静态重用技术，渲染精度较传统方法提升36.93%，保证了成像流畅度。在书生·天际3.0中，室内场景中实现120FPS的流畅表现，在室外场景中则能保持稳定的72FPS，为用户带来身临其境的沉浸式体验。

单帧分立渲染（左）与连续渲染静态重用技术渲染（右）效果对比

VR等设备带来的双目成像需求，对算力使用也提出了全新挑战。传统单目交替渲染方法适应双目成像时，往往带来视差损失。为解决此问题，此前多以加大算力以弥补算法不足。针对现状，研究人员提出首个针对3D高斯（3D Gaussian）渲染的双目去冗融合渲染技术，在不增加额外算力的情况下可实现消除双目视差。

双目去冗融合渲染与传统双目交替渲染效果对比

| 算法系统支撑：更兼容、更有力

沉浸式的高质量虚实交互，得益于算法的全面演进和训练系统的创新支撑。

书生·天际研究团队同通过对Scaffold-GS、Dynload-GS等高斯算法的深度挖掘，提出原创的Octree-GS算法。将八叉树（Octree）这一空间结构引入至3D高斯算法，从多视角图像中学习场景表达，并按照细节层次（LOD）技术将高斯模型划分为多个级别。

在城市级别的大规模场景中，传统高斯算法中渲染的3D高斯数量会随视角拉远而急剧提升，不仅无法保持实时渲染，而且会导致算力需求提升。相反，Octree-GS可根据场景距离和复杂度的高斯筛选机制，在大规模场景渲染中，减少约73.3%的3D高斯数量，在保证高保真渲染结果的同时，实现了从近视角到远视角一致的渲染速度。

Octree-GS算法示意

为赋能训练推理与实景三维平台建设，研究团队构建了首个支撑城市级大场景重建训练和实时渲染的系统——书生·天际训练系统（LandMarkSystem）。通过将算法组件化、模块化，同时对算子进行大量优化，该训练系统实现了对多种算法的有效兼容，可提供更高效的实时渲染能力，为低成本、高质量的大规模场景重建提供了平台支撑。

研究人员对多种算法进行解构，LandMarkSystem目前支持Scaffold GS、Octree GS、Vanilla GS、GridNeRF、InstantNGP、Nerfacto 等6种3D重建算法

基于LandMarkSystem，用户可根据不同场景需求、不同硬件资源条件，选择最高效的算法以及最合适的优化渲染方式，从而使实现更高效、高质量的实景三维重建。

LandMarkSystem执行架构

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

提速6倍，VR可用，书生·天际3.0实景三维大模型离你更“近”了

2024-08-28