1. Machine Learning System
1.1. Definitions
人工智能的三大基石:
- 推理: 后来衍生出了编程语言
- 知识: 衍生出了知识图谱
- 学习: 利用经验改善系统的性能 (统计机器学习)
统计机器学习就是狭义的机器学习, 但是广义上, 机器学习有如下的定义
- 学习是一个蕴含特定目的的知识获取过程, 其内部表现为新知识的不断建立和修正, 而外部则表现为性能改善.
经验(数据和常识), 在此更多指的是数据, 即从数据中总结规律用于将来的预测.
具体如何学习: 视数据包含的信息相应学习.
统计机器学习把很多经典的统计学手段都视为是机器学习的一部分. 任何通过数据训练的学习算法都属于**(统计)机器学习**, say:
- 线性回归(Linear Regression)
- $K$-均值聚类 (K-means)
- 主成分分析 (Principal Component Analysis-PCA)
- 决策树 (Decision Trees) 和随机森林 (Random Forest)
- 支持向量机 (Support Vector Machines)
- 人工神经网络 (Artificial Neural Networks)
as a result, there is a rather ambiguous boundary between statistic problems and statistical machine learning ones.
1.2. Learning System
A learning system should be perceived and classified from various aspects.
say, from the aspect of data:
-
静态与动态 (如照片与视频等)
-
小数据与大数据 (如异常 & 正常 + 类不平衡 / 代价敏感)
-
同质与异质 (如实数型与符号 & 实数的混合等)
-
单态与多态 (如仅图像与声音 & 图像等)
-
小类数与大类数 (如性别与个体识别)
-
缺失 & 带噪数据
-
高维数据 & 非数值数据 (如串、图等)
-
etc.
yet from the perspect of modeling and learning:
-
模型层面
-
形式: 线性模型 / 非线性模型
-
体系: 浅层 (BP) / 深度 / 递归 (RNN)
-
-
学习层面
- 经典
- 现代
- 混合
1.3. Learning
learning methods are classified into 2 types:
- classic learning methods(-1990): 机械学习, 归纳学习, 类比学习, 解释学习, 决策树&森林, 贝叶斯分类器, 聚类
- modern learning methods: 监督学习, 弱监督学习, 无监督学习, 统计学习, 集成学习, 强化学习, 深度学习理论与方法
It’s noteworthy that items listed in classic learning methods are simple learning methods, while those in modern learning methods are classes of methods.
2. System Modeling and Modeling Selection
2.1. Curse of Dimensionality
高维空间单位球体积: $v_n=\displaystyle \frac {2\pi}nv_{n-2}$. 实际上, 半径为 $r$ 的高维球体的体积为:
随着输入维数的增加, 算法将需要更多的数据
很自然地, 为了解决高维问题, 我们要设计数据降维的算法.
2.2. Verification
如何判断模型是否已经足够有效了? 我们采用这样的设计:
2.3. Modeling and Related Factors
- 模型/映射函数 $f(\cdot)$ 刻画(如线性机, SVM, 神经网络等)
- 确定目标/损失函数 (如平方损失, 互熵等, 更一般的是凸与非凸) 并优化获得模型
- 评测:泛化性能(可解释为举一反三的能力,在未知样 本上的预测能力)