《音视频开发技术:原理与实践》©
=[>> 关于作者© <<]=
=[>> 版权申明© <<]=
=[>> 难度向导© <<]=
=[>> 赞助本作© <<]=
一、音频的保存与还原
1.1 音频基础
1.2 声波三要素(Three Elements of Acoustics)
1.3 声音三要素(Three Elements of Sounds)
1.3.1 音高(Pitch)
1.3.2 响度(Loudness)
1.3.3 音色(Timbre)
1.4 声音的解构
1.4.1 乐理:音调(Notes) & 五度圈(Circle of Fifths)
1.4.2 乐理:和声(Harmony) & 和弦(Chord)& 调性网络(Tonnetz)
1.4.3 感观:等响曲线(ELLC [Equal Loudness-Level Contour])
1.4.4 感观:频响曲线(FRC [Frequency Response Contour])
1.4.5 工程:频谱图(Spectrum)
1.5 声音数字化
1.5.1 数字信号(Digital Signal)& 模拟信号(Analog Signal)& 真实波源(Original Source)
1.5.2 模数转换(A/D [Analog-to-Digital])
1.5.3 数模转换(D/A [Digital-to-Analog])
1.5.4 脉冲编码调制(PCM)& 脉冲密度调制(PDM)
1.6 音频的存储
1.6.1 音频格式(Audio Format)
1.6.2 无压缩编码格式(Uncompressed Encode)
1.6.3 无损压缩编码格式(Lossless Encode)
1.6.4 有损压缩编码格式(Uncompressed Encode)
【参考文献】
二、色彩的运用与存储
2.1 色彩基础
2.2 颜色三要素(Three Elements of Color)
2.2.1 色调(Hue)
2.2.2 饱和度(Saturation)
2.2.3 光亮度(Luminance)
2.3 色彩的衡量
2.3.1 辐射亮度(Radiance)& 色温(Color Temperature)& 颜色的量化
2.3.2 配色函数(Color Matching Functions)& 色彩空间(Color Space)
2.3.3 经典三原色函数(Trichromatic Primaries Functions)
2.3.4 经典三刺激函数(Tristimulus Values Functions)
2.3.5 现代色彩体系(Modern Color System)
2.4 色彩的对比
2.4.1 色域(Color Gamut )
2.4.2 色度(Chroma)& 色度平面(Chroma Plane)& 色度图(Chroma Diagram)
2.4.3 色差(Chromatic Aberration)
2.4.4 色温(Color Temperature)& 相关色温(Correlated Color Temperature)
2.4.5 标准光源(Standard Illuminants)& 白点(White Point)
2.4.6 显色指数(Color Rendering Index)
2.5 经典色彩空间(Classical Color Space)
2.5.1 光学三原色色彩空间(RGB)
2.5.2 颜料三原色色彩空间(CMY / CMYK )
2.5.3 CIE RGB 色彩空间(CIE 1931 RGB Color Space)
2.5.4 CIE XYZ 色彩空间(CIE 1931 XYZ Color Space)
2.5.5 CIE LAB 色彩空间(CIE 1976 L*, a*, b* Color Space)
2.5.6 CIE LUV 色彩空间(CIE 1976 L*, u*, v* Color Space)
2.5.7 颜色三要素色彩空间(HSV / HSI / HSL)
2.6 色彩的存储
2.6.1 色彩格式(Color Format)与色彩存储
2.6.2 RGB 体系色彩格式
2.6.3 YUV 体系色彩格式
【参考文献】
三、音视频常用基础算法
3.1 信号分析的核心算法 - 傅立叶变换
3.1.1 一维傅立叶(1D-FT)与一维离散傅立叶变换(1D-DFT)
3.1.2 二维傅立叶(2D-FT)与二维离散傅立叶变换(2D-DFT)
3.1.3 傅立叶变化的经典 - 快速傅立叶变换(FFT)
3.1.4 傅里叶的硬件优化 - 多常数乘法矩阵逼近(Matrix-MCM Approach)
3.2 频率信息提取 - 常用滤波算法
3.2.1 高斯滤波(Gauss Filter)
3.2.2 双边滤波(Bilateral Filter)
3.2.3 拉普拉斯滤波(Laplacian Filter)
3.2.4 马尔滤波(Marr Filter)
3.2.5 索贝尔滤波(Sobel Filter)
3.2.6 各向异性扩散(Anisotropic Diffusion)
3.3 时间冗余控制 - 常用特征提取与朴素阈值处理
3.3.1 方向梯度直方图(HOG [Histogram of Oriented Gradient])
3.3.2 朴素目标检测结果度量 - IoU & GIoU
3.3.3 朴素目标检测物体锁定 - 分步滑动窗口(Simple Sliding Window)
3.4 空域冗余控制 - 基础光流算法与色度压缩
3.4.1 传统光流法(Classic Optical Flow Methods)
3.4.2 双向光流预测(BDOF [Bi-Directional Optical Flow])
3.4.3 光流仿射修正(PROF [Affine Prediction Refinement With Optical Flow])
3.4.4 色度缩放亮度映射(LMCS [Luma Mapping with Chroma Scaling])
3.5 频域冗余控制 - 基础变换编码
3.5.1 整数离散正余弦变换(DST/DCT)
3.5.2 哈达玛变换(WHT [Walsh-Hadamard Transform])
3.5.3 低频不可分变换(LFNST [Low-Frequency Non-Separable Transform])
【在线展示】
【参考文献】
四、音视频机器学习基础
4.1 发展概览
4.2 模型工程基础
4.2.1 算子(Operator)& 层(Layer)
4.2.2 神经元(Neuron)
4.2.3 神经网络(NN [Neural Network])
4.2.4 特征选择(Feature Selection)
4.3 经典激活函数(Classic Activation Function)
4.3.1 Sigmoid
4.3.2 Tanh
4.3.3 Softplus
4.3.4 ReLU 族
4.3.5 ELU & SELU
4.3.6 Mish
4.3.7 Swish 族
4.4 连接函数/衰减函数(Connection/Attenuation Function)
4.4.1 Dropout
4.4.2 Maxout
4.4.3 SoftMax
4.5 损失函数(Loss Function)
4.5.1 回归项-平均绝对误差(MAE [Mean Absolute Error])
4.5.2 回归项-均方误差(MSE [Mean Squared Error])
4.5.3 回归项-休伯损失(Huber Loss)
4.5.4 回归项-分位数损失(Quantile Loss)
4.5.5 分类项-对数损失(Log Loss)
4.5.6 分类项-交叉熵损失(Cross Entropy Loss)
4.5.7 分类项-合页损失(Hinge Loss)
4.5.8 分类项-对比损失(Contrastive Loss)
4.5.9 分类项-三元损失(Triplet Loss)
4.5.10 分类项-对组排异损失(N-Pair Loss)
4.5.11 正则项-L1 惩罚
4.5.12 正则项-L2 惩罚
4.6 常用最优化算法(Optimizer Operator)
4.6.1 基础优化算法
4.6.2 优化算法的优化-应对震荡
4.6.3 优化算法的优化-应对重点强(弱)化更新
4.6.4 自适应实时评估算法(Adam [Adaptive Moment Estimation])
4.6.5 优化算法对比与使用建议
4.7 模型结构速览
4.7.1 卷积神经网络(CNN [Convolutional Neural Network])
4.7.2 循环神经网络(RNN [Recurrent Neural Network])
4.7.3 自注意力网络(Transformer)
【参考文献】
五、音视频帧分析与数据处理
5.1 音视频帧与环境准备
5.1.1 常用数学库(Numpy、Pandas、Mateplotlib)
5.1.2 音频分析库(SoundFile、PyAudio、Librosa、Aubio)
5.1.3 视频分析库(PyOpenCV、Color-Science)
5.1.4 其他分析软件
【参考文献】
本书使用 GitBook 发布
3.1.4 傅里叶的硬件优化 - 多常数乘法矩阵逼近(Matrix-MCM Approach)
3.1.4 傅里叶的硬件优化 - 多常数乘法矩阵逼近(Matrix-MCM Approach)
2011 年, [12]。 【申请 IEEE 授权中】
results matching "
"
No results matching "
"