期末复习
简介
- [x] 什么是大数据?
- [x] 大数据的特征(4V,IBM)
- [x] 什么是数据挖掘?
- [x] 知识发现的流程
- 数据挖掘的主要任务
- [x] 关联规则挖掘
- [x] 分类/回归
- [x] 聚类分析
- [x] 离群点检测
- [x] 数据挖掘和其他学科的关系
认识数据和数据预处理
- [x] 属性类型
- [x] 数据类型
-
相似性度量
-
[x] 欧式距离
-
[x] 曼哈顿距离
-
[x] 闵可夫斯基距离
-
[x] 余弦距离
-
[x] 相关系数
-
[x] 马氏距离
-
[x] KL散度
-
-
数据预处理
-
数据清理
- [x] 缺失值处理
- [x] 噪声处理
-
数据集成
-
相关分析
- [x] 卡方分析
-
数据压缩
-
维度压缩
- [x] PCA降维
- [x] 特征筛选:信息增益
-
数据压缩
- [x] 聚类
- [x] 直方图
- [x] 采样
-
数据变换
- [x] 最大-最小归一化
- [x] Z-score归一化
-
-
-
关联规则和挖掘
-
基本概念
- [x] 频繁项集
- [x] 什么是关联规则
-
Apriori算法
- [x] 两个先验性质
- [x] 算法流程
- [x] 改进方法
-
FP_Growth
- [x] 生成FP树,找频繁模式
- [x] 候选集产生-测试
-
关联规则评估
- [x] 置信度
- [x] 提升度,兴趣因子
分类
- [x] 监督学习vs无监督学习
- [x] 判别模型vs生成模型
-
分类算法
-
决策树
- [x] 如何构造决策树
- [x] 如何对属性进行划分
- [x] 划分准则:id3,c4.5,cart,选择最具划分能力的feature,使得划分后的数据集越纯越好
-
如何解决过拟合问题
-
[x] 过拟合的原因
-
如何避免过拟合
-
[x] 去除噪声
-
[x] 增加样本
-
[x] Train-valid-test
-
[x] 正则项
-
[x] 限制树高
-
[x] 设置最大叶子节点阈值
-
[x] 先剪枝/后剪枝
-
-
-
KNN
- [x] lazy learning
- [x] 流程
- [x] 优点,缺点
-
Naive Bayes
- [x] 概率输出
- [x] 类条件下特征独立
-
SVM
- [x] 基本思想:间隔最大化
- 优点及其原因
- [x] 支持最小样本
- [x] 泛化能力强
- [x] 高维非线性:核技巧
-
ANN
-
[x] 感知机
-
[x] BP算法
-
[x] 优缺点:过拟合,训练慢
-
-
集成学习
- [x] bagging(RF)
- [x] Boosting
- [x] stacking
-
聚类以及离群点检测
-
[x] 什么是聚类
-
[x] 聚类的功能
-
聚类的分类
-
基于划分的聚类
- K-means
- [x] 流程:初始均值-簇分配-更新均值
- [x] 缺点:初始值敏感,K是超参数,只能发现类球状簇,离群点敏感
- K-means
-
基于密度的聚类
- [x] DBscan关键概念,密度可达
- [x] DBscan流程
- [x] DBscan优缺点:任意球状簇,无需设置K,噪声鲁棒,难求,很难找到不同密度的簇
-
[x] 基于层次的聚类:AGES,DJANA
-
[x] 基于网络的聚类:STNG
-
-
离群点检测
- [x] 什么是离群点
- [x] 离群点类型(全局,局部,集体)
- 方法
- [x] 基于统计的方法
- [x] 基于密度的方法
- [x] LOF算法
- [ ] 基于偏离的方法
- [x] 基于距离的方法
大数据技术
-
hash技术
- [x] hash作用
- [x] Shingle文档表征
- [x] 最小哈希
- [x] 如何得到签名矩阵
- [ ] 近似计算
- 局部敏感哈希
- [x] 基本思想:通过映射函数找到相似的候选集
- [x] trick:将签名矩阵划分为多个band,对每个band进行hash
-
数据流挖掘
- [x] 挑战(4个)单程处理,内存限制,时间复杂度,概念漂移
- [x] 什么是概念漂移
- 概念漂移的检测方法
- [x] 基于分布的方法
- [x] 基于错误率的方法
- [x] 数据流分类
- 数据流聚类
- [x] 框架:线上(微簇MC,簇特征,加减,增量)+线下
-
Hadrop/spork
- [x] 什么是hadrop
- [x] 设计准则:并行化(自动),容错及恢复,简明接口
-
hadrop生态
- [x] HDFS(NatureNode,DataNode)
- [x] Mapreduce(计算)
- [x] spark(ROD:transformation懒惰,action)
- [x] spark与Mapreduce比较