核心观点:分类是预测建模的基石,用于预测一个记录属于哪个类别(如“欺诈”或“非欺诈”)。评估分类模型不能只看准确率,尤其是在处理不平衡数据时。
-
朴素贝叶斯 (Naive Bayes)
它利用贝叶斯定理,通过计算在给定结果下预测变量出现的概率,来反推在给定预测变量下结果出现的概率。
其“朴素”之处在于它假设所有预测变量之间相互独立,这个假设在现实中通常不成立,但该算法在文本分类等领域仍然非常有效且快速。
-
判别分析 (Discriminant Analysis, LDA)
LDA寻找一个预测变量的线性组合,使得不同类别之间的分离度最大化,同时类别内部的变异最小化。
-
逻辑回归 (Logistic Regression)
逻辑回归通过一个逻辑函数 (logistic function) 将线性回归的输出转换到 (0, 1) 区间,从而得到一个概率预测。它预测的是事件发生的对数几率 (log-odds)。
它速度快,模型易于解释(系数代表对数几率的变化),是业界非常流行的基准分类模型。
-
评估分类模型 (Evaluating Classification Models)
混淆矩阵 (Confusion Matrix) 是评估分类模型的基础,它展示了预测与实际的对应关系。由此可以计算出多个重要指标:
- 准确率 (Accuracy): 正确分类的比例。
- 精确率 (Precision): 预测为正的样本中,实际也为正的比例。
- 召回率 (Recall / Sensitivity): 所有实际为正的样本中,被正确预测为正的比例。
- 特异度 (Specificity): 所有实际为负的样本中,被正确预测为负的比例。
单一的准确率指标在处理不平衡数据 (Imbalanced Data) 时具有误导性。例如,如果99%的邮件是正常的,一个将所有邮件都预测为正常的模型准确率高达99%,但毫无用处。
-
ROC曲线和AUC
ROC曲线 (ROC Curve) 绘制了在不同分类阈值下,召回率(纵轴)与(1 - 特异度)(横轴)的关系。曲线下的面积 (Area Under the Curve, AUC) 是一个综合性的模型性能度量,值越接近1越好。
-
不平衡数据策略 (Strategies for Imbalanced Data)
处理类别不平衡问题(如欺诈检测),可以采用以下策略:
- 欠采样 (Undersampling): 减少多数类的样本。
- 过采样 (Oversampling): 增加少数类的样本,例如通过自助法或SMOTE算法生成合成数据。
- 调整权重 (Weighting): 在模型训练中给予少数类样本更高的权重。