语音处理：音频信号短时平稳性分析

背景

音频信号中，许多特征变换如短时傅里叶变换，都要求一个前提：语音信号短时平稳性。

那么语音信号短时稳定性这样一个假设，该如何直观理解呢？

先看下面两张图：

图1，音乐信号

图2，噪声信号

以上图中截取观测了时长不到1ms内音频的短时时域信号变化，可以看出图1是时域平稳的，图2是非平稳的。

语音信号短时平稳的原因是，人或乐器发音时，在一个音素发音区间内（通常为20-30ms），信号是有周期规律的，否则就是噪音了。

具体特征：

正是因为语音信号有这样的特点，我们才能截取10ms左右的音频数据，进行傅里叶变换，分析其中的频率组成。