3.4 空域冗余控制 - 基础光流算法与色度压缩
介于上一节分析的时域冗余性质可以得知,时空本身就是紧密相联的。时域冗余的压缩,主要体现于从覆盖整个数据过程的更广视角,来处理宏观上的实际物理物体运动所产生的信息。所以这里的 时域(Time Domain)冗余,指的是 广时空域(Full Spatiotemporal Domain)物体冗余(Objects Redundancy)。而我们 这里所指的空域(Spacial Domain)冗余,可以认为是 相较于时域(Time Domain)的整个数据过程的广度,在单一极短(如前后几帧)的范围内,更细节的像素运动情况的处理,即 狭时空域(Narrow Spatiotemporal Domain)像素冗余(Pixels Redundancy)。
依赖新兴的人工智能方面的运用。广时空域冗余的处理当下虽处于起步阶段,但在标准工程层面探索,如新一代的编解码规格(VVC、MPAI 等)制定获得时续具有关联性的运动区域信息中,已有提案。虽然目前还无法确定最终是否会被采用。其所代表的新一代编解码规格对时域冗余的处理思路,仍然可被有效的借鉴于后续标准确立。这也意味着,传统编解码手段的未来发展方向,需要与人工智能领域在更为基础的方面相结合。必然不可避免需要多级模型的联动。
显而易见,为了保证多级模型的效率,大多数诸如 HOG 在内的一二维信号数据的前处理工作,就需要在模型外解决。而以往这些处理,仅被用于在应用层的具体某些功能过程(比如人脸识别、特征点蒙皮等)的数据准备工作,并未触及到编解码工程的核心区域(不过现在已有一些编解码框架,在利用了这些特性来做相关实践了),因此总是以单元化的单个功能的形式出现。在利用模型针对时域(广)压缩的可能性出现后,部分模型处理结果的简单重复判断过程,可以结合空域频域(如光流运动检测、频域动态分析等)的其他手段,转为由量化的传统算法单元达成。届时整体前后向反馈的系统化工作,会需要提升到音视频工程层面来协助解决。直至模型的推理引擎或算法对应算子的工程标准能够一定程度的统一,从而作为基础功能的一部分,下沉至整体编解码器的规格配置。而这将是一个漫长的过程。
所以,当下必不可少的, 会要求音视频工程师对深度学习(DL [Deep Learning])为代表的机器学习,有一定程度的基础了解和认知。 本书会在第四章节,对这部分的基础知识进行阐述。而现在,让我们回到剩余的域中冗余处理。
空域(指狭时空域,之后若无特别说明则统一按此简化表述) 和频域冗余,在编解码中已有更为成熟的方法论积累。
空域冗余目前的主流处理思路,是在传统块矢量预测、运动补偿的基础上,从更精细的尺度,基于对近似像素前后相邻时间段内的漂移情况分析来进行一定程度的预估。通过块内运动矢量来测算一段时间内,指定空间范围像素亮度值(灰度值)变化。从而使之只需要保存矢量信息,即可适当完成空域信息的还原。
在分块上基于运动矢量推导,而像素则常采用光流法完成。分块处理和规格强相关,我们将在后续编解码规格分析中再行展开。现在让我们只关注细部。
那么什么是 光流(Optical Flow) 和 光流法(Methods of Optical Flow) 呢?