工作流程
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
- 获取数据
- 数据基本处理
- 特征工程
- 机器学习(模型训练)
- 模型评估
- 结果达到要求,上线服务
- 没有达到要求,重新上面步骤
算法分类
- 监督学习:输入数据由特征值和目标值组成,输出可以是连续的值(回归),或者是有限个离散值(分类)。
- 无监督学习:输入数据由特征值组成,没有目标值。输入数据没有被标记,也没有确定的结果。样本数据类别未知; 需要根据样本间的相似性对样本集进行类别划分。
- 半监督学习:训练集同时包含标记样本数据和未标记样本数据
- 强化学习:实质是make decisions 问题,即自动进行决策,并且可以做连续决策。主要包含五个元素:agent, action, reward, environment, observation;强化学习的目标就是获得最多的累计奖励。
模型评估
- 分类模型评估
- 准确率
- 精确率
- 召回率
- F1-score
- AUC指标
- 回归模型评估
- 均方根误差(Root Mean Squared Error,RMSE)
- 相对平方根误差(Relative Squared Error,RSE)
- 平均决定误差(Mean Absolute Error,MAE)
- 相对绝对误差(Relative Absolute Error,RAE)
- 拟合
- 欠拟合(under-fitting):模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。
- 过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。