1. Machine Learning System
1.1. Definitions
人工智能的三大基石:
- 推理: 后来衍生出了编程语言
- 知识: 衍生出了知识图谱
- 学习: 利用经验改善系统的性能 (统计机器学习)
统计机器学习就是狭义的机器学习, 但是广义上, 机器学习有如下的定义
- 学习是一个蕴含特定目的的知识获取过程, 其内部表现为新知识的不断建立和修正, 而外部则表现为性能改善.
经验(数据和常识), 在此更多指的是数据, 即从数据中总结规律用于将来的预测.
具体如何学习: 视数据包含的信息相应学习.
统计机器学习把很多经典的统计学手段都视为是机器学习的一部分. 任何通过数据训练的学习算法都属于**(统计)机器学习**, say:
- 线性回归(Linear Regression)
- $K$-均值聚类 (K-means)
- 主成分分析 (Principal Component Analysis-PCA)
- 决策树 (Decision Trees) 和随机森林 (Random Forest)
- 支持向量机 (Support Vector Machines)
- 人工神经网络 (Artificial Neural Networks)
as a result, there is a rather ambiguous boundary between statistic problems and statistical machine learning ones.
1.2. Learning System
A learning system should be perceived and classified from various aspects.
![](https://naturalifica.oss-cn-nanjing.aliyuncs.com/~/Users/wuchentian/SoloLearning/Blog/source/imgs/image-20230905190118665.png)
say, from the aspect of data:
-
静态与动态 (如照片与视频等)
-
小数据与大数据 (如异常 & 正常 + 类不平衡 / 代价敏感)
-
同质与异质 (如实数型与符号 & 实数的混合等)
-
单态与多态 (如仅图像与声音 & 图像等)
-
小类数与大类数 (如性别与个体识别)
-
缺失 & 带噪数据
-
高维数据 & 非数值数据 (如串
图等)、 -
etc.
yet from the perspect of modeling and learning:
-
模型层面
-
形式: 线性模型 / 非线性模型
-
体系: 浅层 (BP) / 深度 / 递归 (RNN)
-
-
学习层面
- 经典
- 现代
- 混合
1.3. Learning
learning methods are classified into 2 types:
- classic learning methods(-1990): 机械学习, 归纳学习, 类比学习, 解释学习, 决策树&森林, 贝叶斯分类器, 聚类
- modern learning methods: 监督学习, 弱监督学习, 无监督学习, 统计学习, 集成学习, 强化学习, 深度学习理论与方法
It’s noteworthy that items listed in classic learning methods are simple learning methods, while those in modern learning methods are classes of methods.
![http://www.deeplearningbook.org](https://naturalifica.oss-cn-nanjing.aliyuncs.com/~/Users/wuchentian/SoloLearning/Blog/source/imgs/image-20230905191430295.png)
2. System Modeling and Modeling Selection
2.1. Curse of Dimensionality
高维空间单位球体积: $v_n=\displaystyle \frac {2\pi}nv_{n-2}$. 实际上, 半径为 $r$ 的高维球体的体积为:
随着输入维数的增加, 算法将需要更多的数据
很自然地, 为了解决高维问题, 我们要设计数据降维的算法.
2.2. Verification
如何判断模型是否已经足够有效了? 我们采用这样的设计:
![数据集的划分](https://naturalifica.oss-cn-nanjing.aliyuncs.com/~/Users/wuchentian/SoloLearning/Blog/source/imgs/image-20230905195314272.png)
2.3. Modeling and Related Factors
- 模型/映射函数 $f(\cdot)$ 刻画
如线性机, SVM, 神经网络等( ) - 确定目标/损失函数 (如平方损失, 互熵等, 更一般的是凸与非凸) 并优化获得模型
- 评测
泛化性能(可解释为举一反三的能力: 在未知样 本上的预测能力),