此文是一些机器学习常用概念的整理,搬运过来的。
另外,细节才是
在信息论与概率统计学中,熵(entropy)是一个很重要的概念。在机器学习与特征工程中,熵的概念也用得很多。
“承载了信息的东西”才是数据
- 信息是用来消除不确定性的东西
熵是神马东东?信息论的开山祖师爷Shannon说,信息的不确定性可以用熵来表示,即信息熵是信息杂乱程度的描述:
对于一个取有限个值的随机变量X,如果其概率分布为:
优点:
- 1.信息增益考虑了特征出现与不出现的两种情况,比较全面,一般而言效果不错。
- 2.使用了所有样例的统计属性,减小了对噪声的敏感度。
- 3.容易理解,计算简单。
缺陷:
- 1.信息增益考察的是特征对整个系统的贡献,没有到具体的类别上,所以一般只能用来做全局的特征选择,而没法针对单个类别做特征选择。
- 2.只能处理连续型的属性值,没法处理连续值的特征。
- 3.算法天生偏向选择分支多的属性,容易导致overfitting。