1. Symbolic/Concept Learning & Version Space
1.1. Symbolic Learning
符号学习是一类归纳推理
- 演绎 (正向) 推理: $P\land (P\to Q)\Rightarrow Q$
- 反绎 (溯因/反向) 推理: $(Q\land (P\to Q))\to P$
- 归纳推理: $P\land (P\to Q)\not\Rightarrow Q$
1.2. Concept Learning
定义: 给定样例集合, 以及每个样例是否属于某个概念, 自动地推断出该概念的一般定义.
Formally, for
- a set of instances $X$,
- a target concept $c^*:X\to\{T, F\}$,
- training examples $D=\{(x_1, c^*(x_1)), (x_2, c^*(x_2)), \cdots, (x_m, c^*(x_m))\}$,
- a hypothesis set $H$ of functions, $\forall h\in H(h:X\to \{T,F\})$,
the concept learning problem is to find a hypothesis $h\in H$ such that
2. Inductive Bias
归纳偏置
归纳推理/机器学习不得不考虑下面的几个基本的问题:
- 目标概念假设不在假设空问怎么办
? - 能设计包含所有假设的空间吗
? - 假设空间大小对未见实例的泛化能力有什么影响
? - 假设空间大小对所需训练样例数量有什么影响
?
3. ID3 Algorithm
3.1. Decision Tree Learning
实例
丷能够学习析取表达式
口算法
V ID3, Assistant, C4.5
口归纳偏置
Information Gain
我的这篇数据科学笔记记录了更多关于信息熵部分的知识
4. Other Tree Algorithms
![](https://naturalifica.oss-cn-nanjing.aliyuncs.com/~/Users/wuchentian/SoloLearning/Blog/source/imgs/image-20230802120629270.png)
简单直观
决策树在逻辑上可以很好解释
口基本不需要预处理
也可以处理连续值
口可以处理多维度输出的分类问题
口使用决策树预测的代价是0
口可以交叉验证的剪枝来选择模型
口对于异常点的容错能力好
树学习算法缺点
口树算法非常容易过拟合
数量和限制决策树深度来改进
口决策树会因为样本发生一点的改动
成学习之类的方法解决
口寻找最优的决策树是一个NP难题
可以通过集成学习的方法来改善
口比较复杂的关系(如异或
习方法(如神经网络)来解决
口如果某些特征的样本比例过大
过调节样本权重来改善