1. Data
$def$: Data
数据是自然世界抽象为集合元素的表示。在实际应用中,采用某种数学元素作为数据的抽象表示,数据集作为相应的集合
$def$: Information
数据赋予某种结构获得信息 $\mathcal{I=S}(\mathcal D)$。信息通常能被人类所理解,并被用来消除不确定性。
$def.$ Partially Ordered Structure
$A$ 上的关系 $R$ 是自反的,反对称的,传递的。则 $R$ 是一个偏序,集合 $A$ 与 $R$ 一起称作偏序集, 记做 $(A,\ R)$, 在不引起混淆的情况下,可以简写成 $A$
$def.$ Knowledge
知识是信息和规则的二元组 $\mathcal{K}=<\mathcal{I,R}>$。信息与规则结合获得知识,并且能够推理出更多的知识
2. Data Type
$def.$ Categorial Data (Norminal)
定类数据是对事物进行分类的结果,表现为类别,是仅仅反映观测对象所属类别的数据
$def.$ Ordinal Data
定序数据是只仅仅反映观测对象等级,顺序关系的数据,是有定序尺度计量而形成的,表现为类别,可以进行排序,属于品质数据
$def.$ Interval Data
定距数据是指具有顺序和距离属性的数据,室友定距尺度计量形成的,表现为数值,可以进行加、减运算以精确计算的数据
$def.$ Ratio Data
定比数据是指具有顺序,距离和比例属性的数据,室友定比尺度计量形成的,表现为数值,可以进行四则运算。没有负数。
3. Data Process
$def.$ Mode (众数)
众数是一批数据中出现次数最多的那个数,记为 $M_0$
$def.$ Median (中位数)
设一批数据经过排序之后为 $X_1,\ X_2,\ …,\ X_n$,则其中位数 $M_e \triangleq M_{[\frac{n+1}{2}]}$
$def.$ Quartile (四分位数)
一批数据按升序排序后为 $X_1,\ X_2\ ,…,\ X_n$,则其第 $i$ 位的四分位数 $Q_i \triangleq \frac{i(n+1)}{4},\ (i = 1,\ 2,\ 3)$
$def.$ Arithmetic Mean
设一批数据 $X_1,\ X_2\ ,…,\ X_n$,则其算数平均值
easy to find this trivial property of arithmetic mean.
not hard to find this non-trivial property of arithmetic mean
$def.$ Weighted Arithmetic Mean
设一批数据 $X_1,\ X_2\ ,…,\ X_n$,相应的权重为 $\omega_1,\ \omega_2\ ,…,\ \omega_n$,不失一般性,我们假设权重和为 $1$ ,则其加权算术平均值为
$def.$ Inter-quartile Range (内四分位距)
内四分位距 $\triangleq Q_3-Q_1$
$def.$ Variance and Standard Deviation
设一批数据为 $X_1,\ X_2\ ,…,\ X_n$,则数据的偏差平方和为每个数据与平均值偏差平方的和,即
数据的方差 $S^2$ 为偏差平方和的平均值
数据的标准差 $S$ 为方差的算术平方根
$def.$ $\text{Bessel}$'s Correction
设一批数据为 $X_1,\ X_2\ ,…,\ X_n$,则数据的方差和标准差 $S^2,\ S$ 为
$def.$ Coefficient of Variation
样本的变异系数为样本标准差除以样本的均值
$def.$ Moment
设一批数据 $X_1,\ X_2\ ,…,\ X_n$,其 $k$ 阶原点矩定义为 $(k\in\mathbb{N})$
其 $k$ 阶中心矩定义为 $(k\in\mathbb{N})$
$def.$ Skewness (偏度)
设一批数据 $X_1,\ X_2\ ,…,\ X_n$,则其偏度 $s^3$ 为
$def.$ Kurtosis (峰度)
设一批数据 $X_1,\ X_2\ ,…,\ X_n$,则其峰度 $s^4$ 为