CART算法中的Gini impurity(不纯度)

首先Gini不纯度和Gini系数(coefficient)没有关系。Gini impurity衡量的是从一个集合中随机选择一个元素,基于该集合中标签的概率分布为元素分配标签的错误率。对于任何一个标签下的元素,其被分类正确的条件概率可以理解为在选择元素时选中该标签的概率与在分类时选中该标签的概率。基于上述描述,Gini impurity的计算就非常简单了,即1减去所有分类正确的概率,得到的就是分类不正确的概率。若元素数量非常多,切所有元素单独属于一个分类时,Gini不纯度达到极小值0。

设元素的标签为${1, 2, …, m}$,$f_i$为该标签在集合中的比例,那么

$I_{G}(f) = \sum_{i=1}^{m} f_i (1-f_i) = \sum_{i=1}^{m} (f_i – {f_i}^2) = \sum_{i=1}^m f_i – \sum_{i=1}^{m} {f_i}^2 = 1 – \sum^{m}_{i=1} {f_i}^{2}$

翻译自:http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity

发表评论

电子邮件地址不会被公开。 必填项已用*标注