1机器学习流程

一、数据收集并给定标签

数据预处理

1)归一化

2)数据清洗

先直观上 去掉不需要的列特征。 包括:
1.预测后才出现的特征(比如:实际发放的贷款)、
2.高度相关的特征(比如:123和ABC)、
3.关系不大的特征(比如:ID等)
4.列属性只有一个值的
 需要先排除列中 nan 值,再用 unique() 判定

3)缺失值处理

先查找列缺失值多的,去掉这些列,只剩下缺失值少的列。之后直接去掉那些样本行即可

4)字符串值处理

把 object 类型转为 int 和 float 类型。包括:
1.one-hot 编码
2.列属性数字替换

5)数据样本均衡分析

样本分布不均衡:指的是 label 不同的样本数量差距很大。
如果数据样本不均衡,容易导致分类器效果很差。
为了解决,有以下2种方案:

P1:oversample 或 undersample
P2:用模型参数 调节分类惩罚权重比参数: class_weight,适用于所有分类算法

特征提取

数据集划分

二、训练一个分类器

选择模型

训练模型

  • 让学习率随迭代次数收敛

三、模型测试、评估

选择模型评估方法

1.交叉验证 + 指标(比如:精度、TPR)
2.均方误差
3.交叉熵

模型评估结果分析

如果分类效果不佳,可采取以下措施:

  • 调节分类惩罚系数比(可在模型参数中调节)
  • 调节模型其他参数
  • 考虑 过拟合 可能,去掉一些列
  • 集成多个模型
  • 尝试其他模型
꧁༺The༒End༻꧂