《音视频开发技术:原理与实践》©
目标
对于音视频工程师/架构师来说,日常工作长中总会有大量的知识技术积累,亟待梳理以期望能够被快速检索查阅。但由于工程技术所处领域的复合特征,往往针对一个工程问题所需要的专业知识,不论深浅程度,都会横跨几门学科。而想要获取有效的处理问题所能使用的信息,都需要依次回顾、搜集和关联。这样必不可少会花费大量时间查阅各类大部头资料和文献。而这么做往往是因为,对于待解答问题非常重要的知识点,分布碎片化导致的。
音视频规格的跨度构成了本身技术的多个维度,使得我们并不能按照以往的工程思维,从单一角度来考虑涉及此类型的复合问题。
因此,本书的目的旨在以工程解决方案的实践思路过程,对相关联的各学科核心知识进行串联。以求用一套完整且关联的技术栈模板,来贯穿当下多媒体技术的所有核心技术模块。从而 为读者提供针对多媒体(音视频)分析/处理/整合/架构方面,有效技术指导与学习路线。
特色
本书结合作者工作实践,对架构师日常工作工程中涉及使用到的:数字信号处理、计算机图形学、色彩学、相关工程规格规范、驱动特征及软件框架设计等,领域的专业学科知识进行了梳理和提炼。从音视频工程师不同的技术阶段需要面临的问题为出发点,将
全书分为,音视频基础与音视分析、流媒体规格与简易编解码播放框架设计、通用统一化音视频编辑框架与渲染驱动设计,三大阶段。每一阶段,统一采用知识图谱串联工程规格与编码实践,全面讲解对应技术阶段下需要掌握的,多媒体(音视频)技术之简史、原理、算法、设计及相关推导、制定、架构与应用。
基于此,全书按照技术逐级递进的关系,构成了整体音视频从数据分析、编解码器开发、播放器开发到图形化与图像处理、特效与特效引擎的 完整技术栈。使得全书每个章节内部自成一体但确相互关联,从而便于做技术字典、工程手册和整体学习之用。
面向
书中原理与技术面向全平台,因此主要开发语言为 C/C++。部分平台化及数据分析场景,会一定程度的应用到 C#、Java、Python 等其他语言。本书适合:
初入音视频开发的新手: 本书为您提供了完整学习路径,对于打算初入本行业的开发者,本书能够帮您梳理完整的音视频开发技术路线。协助您成功入行。
有基础的音视频工程师: 本书为您提供了知识技术字典,对于日常开发工作中涉及到的相关问题分析,本书能够帮您快速定位到所需要的核心知识点,进而方便您进一步根据所给信息来做出判断,或根据提示方向来进行深度资料查阅。
多媒体编解开发者友好: 本书为您提供了ITU-T的编解码协议技术索引和讲解,您可以快速通过本书查阅常用 H.264、H.265、H.266 的关键资料和技术对比。
流媒体协议开发者友好: 本书为您提供了常用流协议的拆分解析,您可以快速通过本书查阅常用 RTP/RTCP、RTMP、HLS 的规格设定和消息类型。
学研成果转向生产部署: 本书为您提供了理论转实践的事例方案,对于将研究成果转换到实际工业生产活动的老师,本书能够为您介绍一些现已有成功实践的多媒体方面学转产探索。协助您梳理思路。
硬核的多媒体技术大咖: 若您是深耕此领域多年的老师,您不妨将本书当作一次有趣的思维之旅,从不同的视角感受音视频工程魅力,希望本书能为您提供一些帮助。当然,也更希望获得您的交流。
为方便您定位章节难度,此处提供 =[>> 难度向导 <<]= 建议。
受限于作者,本书难免存在一些不足,您可以 Book-issues 进行反馈,感谢您的帮助!
目录
音视频工程基础
- 一、音频的保存与还原
- 二、色彩的运用与存储
- 三、音视频常用基础算法
- 四、音视频机器学习基础
- 4.1 发展概览
- 4.2 模型工程基础
- 4.3 经典激活函数(Classic Activation Function)
- 4.4 连接函数/衰减函数(Connection/Attenuation Function)
- 4.5 损失函数(Loss Function)
- 4.5.1 回归项-平均绝对误差(MAE [Mean Absolute Error])
- 4.5.2 回归项-均方误差(MSE [Mean Squared Error])
- 4.5.3 回归项-休伯损失(Huber Loss)
- 4.5.4 回归项-分位数损失(Quantile Loss)
- 4.5.5 分类项-对数损失(Log Loss)
- 4.5.6 分类项-交叉熵损失(Cross Entropy Loss)
- 4.5.7 分类项-合页损失(Hinge Loss)
- 4.5.8 分类项-对比损失(Contrastive Loss)
- 4.5.9 分类项-三元损失(Triplet Loss)
- 4.5.10 分类项-对组排异损失(N-Pair Loss)
- 4.5.11 正则项-L1 惩罚
- 4.5.12 正则项-L2 惩罚
- 4.6 常用最优化算法(Optimizer Operator)
- 4.7 模型结构速览
- 【参考文献】
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.