抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

第二章:认识数据

2.1 数据对象与属性类型

  • 数据对象 = 样本/实例/数据点/对象,用属性描述

2.1.1 什么是属性

  • 属性attribute,维dimension,特征feature,变量variable

2.1.2 标称属性NominalAttribute

  • 标称属性的值仅仅只是不同的名字
  • 众数、熵、列联相关、检验是有意义的

2.1.3 二元属性BinaryAttribute

  • 只有两个状态0,1
    • 对称的
    • 非对称的:重要的值通常比较少出现,通常用1表示,例如化验结果中的阳性

2.1.4 序数属性OrdinalAttribute

  • 序数属性的值提供足够的信息确定对象的序
  • 中值、百分位、秩相关、游程检验、符号检验是有意义的

2.1.5 数值属性NumericAttribute

  • 区间属性IntervalAttribute
    • 存在测量的单位
    • 均值、标准差、皮尔逊相关、检验和检验是有意义的
  • 比率RatioAttribute
    • 关注差和比率
    • 几何平均、调和平均、百分比变差是有意义的

2.1.6 离散属性与连续属性

  • 离散属性DiscreteAttribute
    • 有限或无限可数个值
    • 常表示为整数变量或字符串变量
      连续属性ContinuousAttribute
    • 属性值为实数
    • 实践中, 实数只能用有限位数字的数度量和表示.
    • 连续属性一般用浮点变量表示.

2.2 数据的基本统计描述

2.2.1 中心度量趋势

  • 均值:
  • 加权均值:
  • 截尾均值:减少极端值的影响
  • 中位数:线性插值估计
    • 找到中位数区间$S=[L_1,L_1+width]
    • S区间频数为,低于S的所有区间频数和为
    • 估计
  • 众数:对于非单峰数据,有如下经验:

2.2.2 度量数据的散布

  • 极差:
  • 四位分数:将数据分布划分为4个相等部分,分界点为
  • 四分位数极差:给出数据中间一半的覆盖范围,
  • 方差:
  • 标准差:度量均值的发散,
  • 五数概括
  • 盒图
    • 盒图

2.2.3 数据的基本统计描述的图形显示

  • 分位数图
    • 观察单变量数据分布
    • 每个观测值和某个百分数配对
    • 分位数图
  • 分位数-分位数图
    • 刻画一个分布到另一个分布是否有漂移
    • 分位数-分位数图
  • 直方图
    • 刻画数据的整体分布情况
    • numpy.hist()
    • 直方图
  • 散点图
    • 数据的具体分布(<=3维)
    • 散点图

2.3 数据可视化

2.3.1 基于像素的可视化技术

  • 空间填充曲线

2.3.2 几何投影可视化技术

  • 平行坐标技术

2.3.3 基于图符的可视化技术

  • Chernoff脸
  • 人物线条画

2.3.4 层次可视化技术

  • "World-within-world"技术
  • 树图

2.3.5 可视化复杂对象和关系

  • 标签云tag-cloud

2.4 度量数据的相似性和相异性

相似性和相异性都被称作邻近性

2.4.1 数据矩阵和相异性矩阵

基于内存的聚类和最邻近算法基于两种数据结构:

  • 数据矩阵dataMatrix
    • 对象-属性two_mode
  • 相异性矩阵dissmilaratyMatrix
    • 对象-对象single_mode
    • 对称的,对角线是0

2.4.2 标称属性的邻近性度量

相异性计算标准:

  • 不匹配率计算:
  • 将标称属性用非对称的二元属性编码

2.4.3 二元属性的邻近性度量

  • 对称二元属性:
    • 每个状态同样重要,
  • 非对称二元属性:
    • 正匹配比负匹配更重要

2.4.4 数值属性相异度:闵可夫斯基距离

对数据对象,各维权重为,Minkowski距离: 注意,各维等价时,p=1称为Manhattan距离,p=2称为Euclidean距离

2.4.5 序数属性的相异性度量

变量具有个状态,变量的值映射为,即某个对象变量,值为,秩为,相异度计算用区间标度变量处理:,即用linspace(0,1,Mf)代表每个点

2.4.6 混合属性的相异度

数据集包括p个混合属性,指示符当且仅当缺失或者在非对称二元属性中形成负匹配 根据属性的贡献计算

  • f是数值的:,h取遍f非缺失对象

  • f是标称的或二元的:

  • f是序数的:

2.4.7 余弦相似性

对于待比较的向量,使用余弦度量

评论




博客内容遵循 [署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
本站使用 Volantis 作为主题 字数统计:318.5k
<