作为多视角视频压缩的核心标准,MV-HEVC 不仅解决了 3D 视频高码率、高冗余的挑战,更以其层级编码与视差预测能力,为沉浸视频奠定了技术底座。本篇将深入解析 MV-HEVC 的编码机制与关键技术,揭示其如何在有限带宽下实现高质量沉浸体验。
MV-HEVC 是 HEVC (H.265) 标准的多视角扩展编码技术。HEVC 最初(版本1)仅支持传统单视角2D视频编码,而在2014年的版本2中,引入了多视角扩展 MVHEVC,将 HEVC 的范围拓展到 3D 视频领域[3]。MV-HEVC 旨在高效压缩由多个视角(如左眼和右眼摄像机)捕获的同一场景视频,在有限带宽下实现高质量的 3D /多视角视频传输[4]。下面将详细阐释其编码机制和关键技术要素,包括多视角视频的编码机制、深度数据的引入与处理,以及多视图融合与 3D 渲染等,并比较其相对传统 HEVC 的区别与优势。
1、多视角视频的编码机制
在 MV-HEVC 中,多路摄像机捕获的视角视频并非彼此独立编码,而是被整合进同一个多层比特流进行联合压缩。具体而言,编码器会选定其中一个视角(如左眼画面)作为主视图(基层),按常规 HEVC 进行编码;其他视角(如右眼画面)作为从视图(增强层),主要记录相对于主视图的差异信息 [5]。如图1所示,不同视角间存在大量重叠和相似内容——同一场景的物体在左右眼画面中基本相同,仅存在视差位移。因此,MV-HEVC 利用这些视角相关的冗余:从视图帧不仅参考自身视角的之前帧,还可以引用主视图的对应帧作为参考。主视图提供了完整画面的基准,而增强层则以较低码率仅编码两视图差异部分。

图2 MV-HEVC 多视角视频编码结构示意。
灰色I/P帧为关键帧或参考帧,白色B/b帧为预测帧。蓝色箭头表示跨视角参考(右视图帧参考同期左视图帧),黑色箭头表示帧间预测参考[4]
例如,在 stereoscopic 3D 场景下,MV-HEVC 让左眼和右眼的图像分别存储于独立的层中,每只眼的视图都保持完整分辨率。右眼视图的大部分内容可通过参考左眼视图高效预测,仅需记录视差导致的少量差异。这种利用不同视角之间图像内容的相似性,通过从主视图向从视图传递预测信息,有效压缩多视角视频中的冗余数据的跨视角预测编码机制极大提高了压缩效率——相较于将左右眼视频分别独立编码,MV-HEVC 可在保持相同视觉质量前提下节省约30%的比特率[6]。
在播放器或解码端,支持 MV-HEVC 的设备可以解码两层并分别送往左右眼显示,实现 3D 视觉;如果解码器不支持多视角扩展,也可退化为仅解码基层,输出单眼 2D 视频画面,从而保持一定的向下兼容性(即在不支持 MV-HEVC 的设备上仍能以 2D 形式观看)。总而言之,MV-HEVC 通过引入多层视角编码,有效减少了 3D 视频的冗余数据,为高分辨率沉浸视频提供了可行的编码方案。
2、深度数据的引入与处理
在多视角视频技术的发展中,深度数据如**深度图(Depth Map)的引入是提升沉浸感和压缩效率的另一关键要素。MV-HEVC 标准在制定过程中已考虑支持深度图的附加传输[3]:即在多视角视频中辅以每个像素距离摄像机的深度信息。深度图能够描述场景的三维几何结构,当与多视角彩色视频结合时,被称为多视角+深度****(MVD)**表示。
基于深度数据,编码器和解码器可以进行更智能的预测和渲染:一方面,深度信息可用于提升跨视角预测的准确性,使编码器更高效地利用视差进行压缩;另一方面,接收端借助深度可以重建或合成额外视角****的画面,实现一定程度的自由视角观看。例如,有了深度图,系统可以在左右眼视图基础上插值生成不同视角的图像,以响应用户细微的头部位移,增强真实感。这类技术在 HEVC 的更高级扩展中有所体现—— HEVC 后续制定了 3D-HEVC 标准,在 MV-HEVC 框架基础上加入了专门针对 3D 视频的新工具,以获得比MVHEVC更高的压缩效率。3D-HEVC 支持对多个视图及其对应的深度图同时编码,能更充分地利用场景几何信息[图3]。

图3 3D-HEVC 编解码器框图
对于 Apple 沉浸视频目前的实现而言,主要采用双摄像机 3D 视频,并没有公开传输独立的深度图层。但深度的概念依然隐含其中:3D 摄像头捕获的视差本质上提供了场景的深度线索,Apple 的系统会根据预先校准的摄像机参数计算出合适的 3D 显示效果。此外,Apple 在 MV-HEVC 文件中加入了元数据来描述内容的关键参数,如视场角(FOV)、视差范围、3D格式等[2]。这些元数据实际上和深度信息紧密相关:播放器据此才能将180°的全景画面正确映射到头显的视野中,并确保不同视角图像融合时深度感知自然、舒适。

图4 MV-HEVC 通过视差表达深度信息
总的来说,**深度数据的处理为多视角编码和渲染提供了重要支撑:无论是隐式利用视差还是显式传输深度图,结合深度的信息可以提升压缩效率并为未来更高级的沉浸视频(如6-DoF自由视角视频)**奠定基础。
3、多视图融合与3D渲染
多视图融合指的是**将来自多个摄像视角的图像数据整合处理,以生成沉浸式、无缝的最终画面。**由于 MV-HEVC 保留了每只眼独立的全分辨率视图,相比传统将左右画面挤压合并的方案,用户看到的图像清晰度更高,视差信息也更加准确。这为 3D 渲染提供了良好基础,使得最终的 3D 观感自然舒适。在播放过程中,头部追踪技术允许用户四处张望,看到沉浸视频中不同方向的景物。
对于 Apple 当前提供的180°沉浸视频,由于其覆盖前方半球视野,用户左右转头一定角度(例如±90°)以内都能一直看到视频画面而不至于超出范围。在这个过程中,系统需要根据头显的朝向,将相应角度的 3D 画面呈现在用户眼前——这实际上利用了 MV-HEVC 文件中预先标定的视场角元数据[2],确保当用户转头时,视频画面在虚拟球面上的映射位置是准确的,左右眼图像也始终对齐于用户视角。若未来引入全360°的视频或更多视角,播放器还可能需要无缝拼接来自多摄像头的全景视图,这涉及多视图内容在接缝处的融合算法,以避免图像不连续或重影。不过目前 Apple 沉浸视频均为前向180°,无需复杂拼接,重点在于左右眼图像的融合显示。

图5 根据视场角元数据对齐用户视角示意
除了视觉融合,音频也是多视图体验的一部分:Apple 的沉浸视频配套空间音频,提供与画面相对应的 3D 环绕声场。系统通过头部追踪调整音频渲染,使声音听起来始终来自其在画面中的正确方向和距离,从而与3D影像融合,进一步增强沉浸感[1]。
4、与传统HEVC的区别与优势
MV-HEVC 相较传统单视角 HEVC ,在多视角视频应用中展现出显著的技术优势。下面将两者的关键差异与优劣总结如下:

图6 传统单视角HEVC与MV-HEVC在3D/多视角视频应用中的区别与优势
由上表可见,MV-HEVC 通过多层次、跨视角预测的创新,在保持高兼容性的同时显著提升了 3D 视频的压缩效率和质量,是传统 HEVC 难以实现的。当然,实现这些优势也要求编码/解码器具备更高的复杂度和多流处理能力,但得益于 MV-HEVC 主要在高层语法上扩展,核心解码算法与HEVC一致,对硬件来说升级成本相对低廉。综合而言,MV-HEVC 为沉浸视频提供了一套高效且相对成熟的编码方案,成为 Apple 等厂商在空间视频时代的重要技术支撑。

扫码下载APP
科普中国APP
科普中国
科普中国