- Home
- Blog
  - category
  - tag
  - archive
  - note
  - report
- Life
  - Dear MyFriend
  - views
- About Me
- 黑暗降临！

第二章：认识数据

Kytolly

发布于：2025年5月1日

字数：1.1k 字

时长：4 分钟

第二章：认识数据

2.1 数据对象与属性类型

数据对象 = 样本/实例/数据点/对象，用属性描述

2.1.1 什么是属性

属性attribute，维dimension，特征feature，变量variable

2.1.2 标称属性NominalAttribute

标称属性的值仅仅只是不同的名字
众数、熵、列联相关、检验是有意义的

2.1.3 二元属性BinaryAttribute

只有两个状态0，1
- 对称的
- 非对称的：重要的值通常比较少出现，通常用1表示，例如化验结果中的阳性

2.1.4 序数属性OrdinalAttribute

序数属性的值提供足够的信息确定对象的序
中值、百分位、秩相关、游程检验、符号检验是有意义的

2.1.5 数值属性NumericAttribute

区间属性IntervalAttribute
- 存在测量的单位
- 均值、标准差、皮尔逊相关、检验和检验是有意义的
比率RatioAttribute
- 关注差和比率
- 几何平均、调和平均、百分比变差是有意义的

2.1.6 离散属性与连续属性

离散属性DiscreteAttribute
- 有限或无限可数个值
- 常表示为整数变量或字符串变量
  连续属性ContinuousAttribute
- 属性值为实数
- 实践中, 实数只能用有限位数字的数度量和表示.
- 连续属性一般用浮点变量表示.

2.2 数据的基本统计描述

2.2.1 中心度量趋势

均值：
加权均值：
截尾均值：减少极端值的影响
中位数：线性插值估计
- 找到中位数区间$S=[L_1,L_1+width]
- S区间频数为,低于S的所有区间频数和为
- 估计
众数：对于非单峰数据，有如下经验：

2.2.2 度量数据的散布

极差：
四位分数：将数据分布划分为4个相等部分，分界点为
四分位数极差：给出数据中间一半的覆盖范围，
方差：
标准差:度量均值的发散，
五数概括
盒图

2.2.3 数据的基本统计描述的图形显示

分位数图
- 观察单变量数据分布
- 每个观测值和某个百分数配对
分位数-分位数图
- 刻画一个分布到另一个分布是否有漂移
直方图
- 刻画数据的整体分布情况
- numpy.hist()
散点图
- 数据的具体分布（<=3维）

2.3 数据可视化

2.3.1 基于像素的可视化技术

空间填充曲线

2.3.2 几何投影可视化技术

平行坐标技术

2.3.3 基于图符的可视化技术

Chernoff脸
人物线条画

2.3.4 层次可视化技术

"World-within-world"技术
树图

2.3.5 可视化复杂对象和关系

标签云tag-cloud

2.4 度量数据的相似性和相异性

相似性和相异性都被称作邻近性

2.4.1 数据矩阵和相异性矩阵

基于内存的聚类和最邻近算法基于两种数据结构：

数据矩阵dataMatrix
- 对象-属性two_mode
相异性矩阵dissmilaratyMatrix
- 对象-对象single_mode
- 对称的,对角线是0

2.4.2 标称属性的邻近性度量

相异性计算标准：

不匹配率计算：
将标称属性用非对称的二元属性编码

2.4.3 二元属性的邻近性度量

对称二元属性：
- 每个状态同样重要，
非对称二元属性：
- 正匹配比负匹配更重要

2.4.4 数值属性相异度：闵可夫斯基距离

对数据对象,各维权重为,Minkowski距离：注意，各维等价时，p=1称为Manhattan距离，p=2称为Euclidean距离

2.4.5 序数属性的相异性度量

变量具有个状态，变量的值映射为秩，即某个对象变量，值为，秩为，相异度计算用区间标度变量处理：，即用linspace(0,1,Mf)代表每个点

2.4.6 混合属性的相异度

数据集包括p个混合属性，指示符当且仅当缺失或者在非对称二元属性中形成负匹配根据属性的贡献计算

f是数值的：,h取遍f非缺失对象
f是标称的或二元的：
f是序数的：

2.4.7 余弦相似性

对于待比较的向量，使用余弦度量

更新于：2025年5月1日

第五章：数据立方体

第三章：数据预处理

第三章：数据预处理 3.1 数据预处理：概述 3.1.1 为什么要进行数据的预处理现实世界的数据是“肮脏的” 不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据含噪声的：包含错误或者...

评论

查看上一篇
查看下一篇

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
谷歌搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
常见问题
示例博客
加入社区

本站源码
主题源码

暗黑模式
打印页面
阅读模式

<