几个问题:
1.H.264,H.265.H.266标准的帧内预测模式是怎么样子的
H.264:4x4亮度块的帧内预测有9种预测模式(DC+8种方向模式),16x16亮度块的帧内预测有4种预测模式(DC+水平+垂直+plane)。
HEVC:35种帧内预测模式,其中包括DC模式、33种角度模式和Planar模式。
VVC:67种帧内预测模式,其中包括DC模式、65种角度模式和Planar模式。
2.skip与merge模式的区别
skip模式下不需要编码运动向量与残差,merge模式下不需要编码运动向量与但是需要编码残差。
3.如何处理传输视频中I帧比特数过大的问题
???
4.batch-normal的作用与原理
         传统的神经网络,只是在将样本x输入输入层之前对x进行标准化处理,以降低样本间的差异性。BN是在此基础上,不仅仅只对输入层的输入数据x进行标准化,还对每个隐藏层的输入进行标准化。
        当神经网络的输入值的分布不同是,我们可以理解为输入特征值的scale差异较大,与权重进行矩阵相乘后,会产生一些偏离较大地差异值;而深度学习网络需要通过训练不断更新完善,那么差异值产生的些许变化都会深深影响后层,偏离越大表现越为明显;因此,对于反向传播来说,这些现象都会导致梯度发散,从而需要更多的训练步骤来抵消scale不同带来的影响,也就是说,这种分布不一致将减缓训练速度。
        而BN的作用就是将这些输入值进行标准化,降低scale的差异至同一个范围内。这样做的好处在于一方面提高梯度的收敛程度,加快模型的训练速度;另一方面使得每一层可以尽量面对同一特征分布的输入值,减少了变化带来的不确定性,也降低了对后层网路的影响,各层网路变得相对独立,缓解了训练中的梯度消失问题。
        BN往往作用于卷积层之后,激活函数Relu之前,即满足:conv+BN+Relu。
5.prelu比relu的区别
         relu训练的时候很”脆弱”,很容易就”die”了。例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0。如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
         PReLU只增加了极少量的参数,也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的,当不同channels使用相同的ai时,参数就更少了。
6.感知损失
         基于高阶卷积神经网络特征实现感知比较,不做像素基本的损失。模型主要分为两个部分,图像变换网络与感知损失网络,其中损失网络在训练过程种保持不变,主要是采用预训练的图像分类网络如VGG16。定义感知损失来分别度量风格与内容的感知不同,实现最优化得到训练模型。