一、数据收集并给定标签
数据预处理
1)归一化
2)数据清洗
先直观上 去掉不需要的列特征。 包括:
1.预测后才出现的特征(比如:实际发放的贷款)、
2.高度相关的特征(比如:123和ABC)、
3.关系不大的特征(比如:ID等)
4.列属性只有一个值的
需要先排除列中 nan 值,再用 unique() 判定
3)缺失值处理
先查找列缺失值多的,去掉这些列,只剩下缺失值少的列。之后直接去掉那些样本行即可
4)字符串值处理
把 object 类型转为 int 和 float 类型。包括:
1.one-hot 编码
2.列属性数字替换
5)数据样本均衡分析
样本分布不均衡:指的是 label 不同的样本数量差距很大。
如果数据样本不均衡,容易导致分类器效果很差。
为了解决,有以下2种方案:
P1:oversample 或 undersample
P2:用模型参数 调节分类惩罚权重比参数: class_weight,适用于所有分类算法
特征提取
数据集划分
二、训练一个分类器
选择模型
训练模型
- 让学习率随迭代次数收敛
三、模型测试、评估
选择模型评估方法
1.交叉验证 + 指标(比如:精度、TPR)
2.均方误差
3.交叉熵
模型评估结果分析
如果分类效果不佳,可采取以下措施:
- 调节分类惩罚系数比(可在模型参数中调节)
- 调节模型其他参数
- 考虑 过拟合 可能,去掉一些列
- 集成多个模型
- 尝试其他模型