| 编码 | 用途 |
|---|---|
| 序号编码 | 通常用于处理类别间具有大小关系的数据 |
| 独热编码 | 通常用于处理类别间不具有大小关系的特征 |
| 二进制编码 | 先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果 |
| Helmert Contrast | |
| Sum Contrast | |
| Polynomial Cotrast | |
| Backward Difference Contrast |
栗子
- 性别
| 性别 | 类别ID | 二进制表示 | 狂热编码 |
|---|---|---|---|
| 男 | 1 | 0 1 | 1 0 |
| 女 | 2 | 1 0 | 0 1 |
- 血型
| 血型 | 类别ID | 二进制表示 | 狂热编码 |
|---|---|---|---|
| A | 1 | 0 0 1 | 1 0 0 0 |
| B | 2 | 0 1 0 | 0 1 0 0 |
| AB | 3 | 0 1 1 | 0 0 1 0 |
| O | 4 | 1 0 0 | 0 0 0 1 |

京公网安备 11010502036488号