抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

分类(Classfication):前置知识

Background

Content

监督学习vs无监督学习

监督学习:分类,回归

  • 对象的类标签已知
  • 通过类标签的指导下学习数据中的模式
  • 利用获取的模式或者模型对新数据进行分类预测

无监督学习:Clustering, Frequent-Patten

  • 数据集中对象的类标记(概念)是未知的;
  • 挖掘潜在的数据内部模式;

生成模型vs判别模型

生成模型:希望从数据中学习出原始的真实数据生成模型。常见的方法是学习数据的联合概率分布。如Naive Bayes,Hidden Markov等。

判别模型:从数据中学习到不同类概念的区别(划分界限)从而进行分类。如KNN,SVM,ANN,Decision Tree

分类器的评估

二分类任务中的混淆矩阵:

更详细的解释:

  • TP:真正例,被正确分类的正样本
  • TN:真负例,被正确分类的负样本
  • FP:假正例,被错误分类的负样本
  • FN:假负例,被错误分类的正样本

评价指标

查准率/精度(precision)为被分类为正样本中分类正确的比例

查全率/敏感度(recall)为实际为正样本中分类正确的比例

准确度/识别率(accuracy)为全体样本中分类正确的比例

错误率(error)为全体样本中分类错误的比例

特效性,灵敏性

F度量

评论




博客内容遵循 [署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
本站使用 Volantis 作为主题 字数统计:318.5k
<