1. Introduction to Data Analysis

$$\huge\textbf{Introduction to Data Analysis} $$

1. Data

$def$: Data

数据是自然世界抽象为集合元素的表示。在实际应用中,采用某种数学元素作为数据的抽象表示,数据集作为相应的集合


$def$: Information

数据赋予某种结构获得信息 $\mathcal{I=S}(\mathcal D)$。信息通常能被人类所理解,并被用来消除不确定性。


$def.$ Partially Ordered Structure

$A$ 上的关系 $R$ 是自反的,反对称的,传递的。则 $R$ 是一个偏序,集合 $A$$R$ 一起称作偏序集, 记做 $(A,\ R)$, 在不引起混淆的情况下,可以简写成 $A$


$def.$ Knowledge

知识是信息和规则的二元组 $\mathcal{K}=<\mathcal{I,R}>$。信息与规则结合获得知识,并且能够推理出更多的知识

2. Data Type

$def.$ Categorial Data (Norminal)

定类数据是对事物进行分类的结果,表现为类别,是仅仅反映观测对象所属类别的数据


$def.$ Ordinal Data

定序数据是只仅仅反映观测对象等级,顺序关系的数据,是有定序尺度计量而形成的,表现为类别,可以进行排序,属于品质数据


$def.$ Interval Data

定距数据是指具有顺序和距离属性的数据,室友定距尺度计量形成的,表现为数值,可以进行加、减运算以精确计算的数据


$def.$ Ratio Data

定比数据是指具有顺序,距离和比例属性的数据,室友定比尺度计量形成的,表现为数值,可以进行四则运算。没有负数。

3. Data Process

$def.$ Mode (众数)

众数是一批数据中出现次数最多的那个数,记为 $M_0$


$def.$ Median (中位数)

设一批数据经过排序之后为 $X_1,\ X_2,\ …,\ X_n$,则其中位数 $M_e \triangleq M_{[\frac{n+1}{2}]}$


$def.$ Quartile (四分位数)

一批数据按升序排序后为 $X_1,\ X_2\ ,…,\ X_n$,则其第 $i$ 位的四分位数 $Q_i \triangleq \frac{i(n+1)}{4},\ (i = 1,\ 2,\ 3)$


$def.$ Arithmetic Mean

设一批数据 $X_1,\ X_2\ ,…,\ X_n$,则其算数平均值

$$\overline{X}\triangleq\frac{1}{n}\sum_{i = 1}^{n}X_i $$

easy to find this trivial property of arithmetic mean.

$$\sum_{i = 1}^{n}(X_i-\overline{X}) = 0 $$

not hard to find this non-trivial property of arithmetic mean

$$\overline{X} = \arg\min_{a}\sum_{i = 1}^{n}(X_i - a)^2 $$

$def.$ Weighted Arithmetic Mean

设一批数据 $X_1,\ X_2\ ,…,\ X_n$,相应的权重为 $\omega_1,\ \omega_2\ ,…,\ \omega_n$,不失一般性,我们假设权重和为 $1$ ,则其加权算术平均值为

$$\overline{X} = \sum_{i = 1}^{n}\omega_iX_i $$

$def.$ Inter-quartile Range (内四分位距)

内四分位距 $\triangleq Q_3-Q_1$


$def.$ Variance and Standard Deviation

设一批数据为 $X_1,\ X_2\ ,…,\ X_n$,则数据的偏差平方和为每个数据与平均值偏差平方的和,即

$$d^2\triangleq\sum_{i = 1}^{n}(X_i-\overline X)^2= \sum_{i = 1}^{n}X_i^2-{(\displaystyle\sum_{i = 1}^nX_i)^2\over n} $$

数据的方差 $S^2$ 为偏差平方和的平均值

$$S^2\triangleq {d^2\over n} $$

数据的标准差 $S$ 为方差的算术平方根

$$S \triangleq \sqrt{S^2} $$

$def.$ $\text{Bessel}$'s Correction

设一批数据为 $X_1,\ X_2\ ,…,\ X_n$,则数据的方差和标准差 $S^2,\ S$

$$S^2 = {d^2\over n -1}\\S = \sqrt{S^2} $$

$def.$ Coefficient of Variation

样本的变异系数为样本标准差除以样本的均值

$$c_v:=\frac \sigma \mu $$

$def.$ Moment

设一批数据 $X_1,\ X_2\ ,…,\ X_n$,其 $k$ 阶原点矩定义为 $(k\in\mathbb{N})$

$$A_k = {1\over n}\sum_{i = 1}^{n}x_i^k $$

$k$ 阶中心矩定义为 $(k\in\mathbb{N})$

$$\begin {align} B_k &:= {1\over n}\sum_{i = 1}^{n}(X_i - \overline{X})^k \\ & = \sum_{i = 0}^{n}C_n^i(-A_1)^iA_{n-i} \end {align} $$

$def.$ Skewness (偏度)

设一批数据 $X_1,\ X_2\ ,…,\ X_n$,则其偏度 $s^3$

$$s^3\triangleq {B_3\over B_2^{1.5}} $$

$def.$ Kurtosis (峰度)

设一批数据 $X_1,\ X_2\ ,…,\ X_n$,则其峰度 $s^4$

$$s^4 = {B_4\over B_2^2} $$