抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

期末复习

简介

  • [x] 什么是大数据?
  • [x] 大数据的特征(4V,IBM)
  • [x] 什么是数据挖掘?
  • [x] 知识发现的流程
  • 数据挖掘的主要任务
    • [x] 关联规则挖掘
    • [x] 分类/回归
    • [x] 聚类分析
    • [x] 离群点检测
  • [x] 数据挖掘和其他学科的关系

认识数据和数据预处理

  • [x] 属性类型
  • [x] 数据类型
  • 相似性度量

    • [x] 欧式距离

    • [x] 曼哈顿距离

    • [x] 闵可夫斯基距离

    • [x] 余弦距离

    • [x] 相关系数

    • [x] 马氏距离

    • [x] KL散度

  • 数据预处理

    • 数据清理

      • [x] 缺失值处理
      • [x] 噪声处理
    • 数据集成

      • 相关分析

        • [x] 卡方分析
      • 数据压缩

        • 维度压缩

          • [x] PCA降维
          • [x] 特征筛选:信息增益
        • 数据压缩

          • [x] 聚类
          • [x] 直方图
          • [x] 采样
        • 数据变换

          • [x] 最大-最小归一化
          • [x] Z-score归一化

关联规则和挖掘

  • 基本概念

    • [x] 频繁项集
    • [x] 什么是关联规则
  • Apriori算法

    • [x] 两个先验性质
    • [x] 算法流程
    • [x] 改进方法
  • FP_Growth

    • [x] 生成FP树,找频繁模式
    • [x] 候选集产生-测试
  • 关联规则评估

    • [x] 置信度
    • [x] 提升度,兴趣因子

分类

  • [x] 监督学习vs无监督学习
  • [x] 判别模型vs生成模型
  • 分类算法

    • 决策树

      • [x] 如何构造决策树
      • [x] 如何对属性进行划分
      • [x] 划分准则:id3,c4.5,cart,选择最具划分能力的feature,使得划分后的数据集越纯越好
      • 如何解决过拟合问题

        • [x] 过拟合的原因

        • 如何避免过拟合

          • [x] 去除噪声

          • [x] 增加样本

          • [x] Train-valid-test

          • [x] 正则项

          • [x] 限制树高

          • [x] 设置最大叶子节点阈值

          • [x] 先剪枝/后剪枝

    • KNN

      • [x] lazy learning
      • [x] 流程
      • [x] 优点,缺点
    • Naive Bayes

      • [x] 概率输出
      • [x] 类条件下特征独立
    • SVM

      • [x] 基本思想:间隔最大化
      • 优点及其原因
        • [x] 支持最小样本
        • [x] 泛化能力强
        • [x] 高维非线性:核技巧
    • ANN

      • [x] 感知机

      • [x] BP算法

      • [x] 优缺点:过拟合,训练慢

    • 集成学习

      • [x] bagging(RF)
      • [x] Boosting
      • [x] stacking

聚类以及离群点检测

  • [x] 什么是聚类

  • [x] 聚类的功能

  • 聚类的分类

    • 基于划分的聚类

      • K-means
        • [x] 流程:初始均值-簇分配-更新均值
        • [x] 缺点:初始值敏感,K是超参数,只能发现类球状簇,离群点敏感
    • 基于密度的聚类

      • [x] DBscan关键概念,密度可达
      • [x] DBscan流程
      • [x] DBscan优缺点:任意球状簇,无需设置K,噪声鲁棒,难求,很难找到不同密度的簇
    • [x] 基于层次的聚类:AGES,DJANA

    • [x] 基于网络的聚类:STNG

  • 离群点检测

    • [x] 什么是离群点
    • [x] 离群点类型(全局,局部,集体)
    • 方法
      • [x] 基于统计的方法
      • [x] 基于密度的方法
      • [x] LOF算法
      • [ ] 基于偏离的方法
      • [x] 基于距离的方法

大数据技术

  • hash技术

    • [x] hash作用
    • [x] Shingle文档表征
    • [x] 最小哈希
    • [x] 如何得到签名矩阵
    • [ ] 近似计算
    • 局部敏感哈希
      • [x] 基本思想:通过映射函数找到相似的候选集
      • [x] trick:将签名矩阵划分为多个band,对每个band进行hash
  • 数据流挖掘

    • [x] 挑战(4个)单程处理,内存限制,时间复杂度,概念漂移
    • [x] 什么是概念漂移
    • 概念漂移的检测方法
      • [x] 基于分布的方法
      • [x] 基于错误率的方法
      • [x] 数据流分类
      • 数据流聚类
        • [x] 框架:线上(微簇MC,簇特征,加减,增量)+线下
  • Hadrop/spork

    • [x] 什么是hadrop
    • [x] 设计准则:并行化(自动),容错及恢复,简明接口
    • hadrop生态

      • [x] HDFS(NatureNode,DataNode)
      • [x] Mapreduce(计算)
      • [x] spark(ROD:transformation懒惰,action)
      • [x] spark与Mapreduce比较

评论




博客内容遵循 [署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
本站使用 Volantis 作为主题 字数统计:318.5k
<