参考:
[1]: 为什么信息熵要定义成-Σp*log§?.
[2]: 为什么香农要将信息熵公式要定义成-Σp·log₂ ( p ) ?或-∫p·log₂ ( p ) dp??.
[3] Bishop 的著作《Pattern Recognition and Machine Learning》P48.