- Home
- Blog
  - category
  - tag
  - archive
  - note
  - report
- Life
  - Dear MyFriend
  - views
- About Me
- 黑暗降临！

期末复习清单

Kytolly

发布于：2025年5月1日

字数：979 字

时长：3 分钟

期末复习

简介

[x] 什么是大数据？
[x] 大数据的特征（4V,IBM）
[x] 什么是数据挖掘？
[x] 知识发现的流程
数据挖掘的主要任务
- [x] 关联规则挖掘
- [x] 分类/回归
- [x] 聚类分析
- [x] 离群点检测
[x] 数据挖掘和其他学科的关系

认识数据和数据预处理

[x] 属性类型
[x] 数据类型

相似性度量
- [x] 欧式距离
- [x] 曼哈顿距离
- [x] 闵可夫斯基距离
- [x] 余弦距离
- [x] 相关系数
- [x] 马氏距离
- [x] KL散度
数据预处理
- 数据清理
  - [x] 缺失值处理
  - [x] 噪声处理
- 数据集成
  - 相关分析
    - [x] 卡方分析
  - 数据压缩
    - 维度压缩
      - [x] PCA降维
      - [x] 特征筛选：信息增益
    - 数据压缩
      - [x] 聚类
      - [x] 直方图
      - [x] 采样
    - 数据变换
      - [x] 最大-最小归一化
      - [x] Z-score归一化

关联规则和挖掘

基本概念
- [x] 频繁项集
- [x] 什么是关联规则
Apriori算法
- [x] 两个先验性质
- [x] 算法流程
- [x] 改进方法
FP_Growth
- [x] 生成FP树，找频繁模式
- [x] 候选集产生-测试
关联规则评估
- [x] 置信度
- [x] 提升度，兴趣因子

分类

[x] 监督学习vs无监督学习
[x] 判别模型vs生成模型

分类算法
- 决策树
  - [x] 如何构造决策树
  - [x] 如何对属性进行划分
  - [x] 划分准则：id3,c4.5,cart,选择最具划分能力的feature，使得划分后的数据集越纯越好
  - 如何解决过拟合问题
    - [x] 过拟合的原因
    - 如何避免过拟合
      - [x] 去除噪声
      - [x] 增加样本
      - [x] Train-valid-test
      - [x] 正则项
      - [x] 限制树高
      - [x] 设置最大叶子节点阈值
      - [x] 先剪枝/后剪枝
- KNN
  - [x] lazy learning
  - [x] 流程
  - [x] 优点，缺点
- Naive Bayes
  - [x] 概率输出
  - [x] 类条件下特征独立
- SVM
  - [x] 基本思想：间隔最大化
  - 优点及其原因
    - [x] 支持最小样本
    - [x] 泛化能力强
    - [x] 高维非线性：核技巧
- ANN
  - [x] 感知机
  - [x] BP算法
  - [x] 优缺点：过拟合，训练慢
- 集成学习
  - [x] bagging（RF）
  - [x] Boosting
  - [x] stacking

聚类以及离群点检测

[x] 什么是聚类
[x] 聚类的功能
聚类的分类
- 基于划分的聚类
  - K-means
    - [x] 流程：初始均值-簇分配-更新均值
    - [x] 缺点：初始值敏感，K是超参数，只能发现类球状簇，离群点敏感
- 基于密度的聚类
  - [x] DBscan关键概念，密度可达
  - [x] DBscan流程
  - [x] DBscan优缺点：任意球状簇，无需设置K，噪声鲁棒，难求，很难找到不同密度的簇
- [x] 基于层次的聚类：AGES，DJANA
- [x] 基于网络的聚类：STNG
离群点检测
- [x] 什么是离群点
- [x] 离群点类型（全局，局部，集体）
- 方法
  - [x] 基于统计的方法
  - [x] 基于密度的方法
  - [x] LOF算法
  - [ ] 基于偏离的方法
  - [x] 基于距离的方法

大数据技术

hash技术
- [x] hash作用
- [x] Shingle文档表征
- [x] 最小哈希
- [x] 如何得到签名矩阵
- [ ] 近似计算
- 局部敏感哈希
  - [x] 基本思想：通过映射函数找到相似的候选集
  - [x] trick：将签名矩阵划分为多个band，对每个band进行hash
数据流挖掘
- [x] 挑战（4个）单程处理，内存限制，时间复杂度，概念漂移
- [x] 什么是概念漂移
- 概念漂移的检测方法
  - [x] 基于分布的方法
  - [x] 基于错误率的方法
  - [x] 数据流分类
  - 数据流聚类
    - [x] 框架：线上（微簇MC，簇特征，加减，增量）+线下
Hadrop/spork
- [x] 什么是hadrop
- [x] 设计准则：并行化（自动），容错及恢复，简明接口
- hadrop生态
  - [x] HDFS（NatureNode,DataNode）
  - [x] Mapreduce（计算）
  - [x] spark（ROD：transformation懒惰，action）
  - [x] spark与Mapreduce比较

更新于：2025年5月1日

椭圆曲线算法

最优化问题

最优化问题最优化问题值得四在一定约束条件下，求一个函数最大(小)值的过程；由于极大极小问题可以互相转换,不失一般性，因此我们统一形式化描述如下：一般而言，我们的目标是找到全局最小值。但是...

评论

查看上一篇
查看下一篇

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
谷歌搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
常见问题
示例博客
加入社区

本站源码
主题源码

暗黑模式
打印页面
阅读模式

<