一、数据收集并给定标签

数据预处理

先直观上去掉不需要的列特征。包括：
1.预测后才出现的特征（比如：实际发放的贷款）、
2.高度相关的特征（比如：123和ABC）、
3.关系不大的特征（比如：ID等）
4.列属性只有一个值的
　需要先排除列中 nan 值，再用 unique() 判定

先查找列缺失值多的，去掉这些列，只剩下缺失值少的列。之后直接去掉那些样本行即可

把 object 类型转为 int 和 float 类型。包括：
1.one-hot 编码
2.列属性数字替换

样本分布不均衡：指的是 label 不同的样本数量差距很大。
如果数据样本不均衡，容易导致分类器效果很差。
为了解决，有以下2种方案：

P1：oversample 或 undersample
P2：用模型参数调节分类惩罚权重比参数： class_weight，适用于所有分类算法

1.交叉验证 + 指标（比如：精度、TPR）
2.均方误差
3.交叉熵

如果分类效果不佳，可采取以下措施：