-
统计学习的三要素是模型、策略、和算法。方法 = 模型 + 策略 + 算法。
- 模型就是所要学习的条件概率分布或决策函数。
- 按照什么样的准则学习或选择最优模型就是策略。
-
首先要引入损失函数的概念,度量预测错误的程度。
-
风险函数或期望损失指的是损失函数的期望:
学习的目标是让期望损失最小化。但是 未知,所以无法得到这个期望。于是一个替代办法是使用经验风险或经验损失替代:
根据大数定律,样本足够大时 会趋于 。但是样本不足时就会有偏差,需要矫正。
-
经验风险最小化指的就是上面所说的直接最小化 。结构风险最小化是为了防止样本不足产生的偏差。结构风险最小化等价于正则化,结构风险的定义是:
-
贝叶斯中的极大后验概率估计(maximum a posteriori estimation, MAP)是结构风险最小化的一个例子。
-
- 算法是指具体的计算方法。
-
模型评估需要引入训练误差和测试误差。训练误差能判定当前的方法是不是能学习这些数据,测试误差反应了预测未知数据的能力。如果学习方法训练误差很小而测试误差很大,这种现象就是过拟合。在模型选取中,应该用结构风险最小化的方式避免过拟合。
-
正则化和交叉验证是模型选择的重要方法。
-
评估泛化能力可以使用泛化能力上界。这个证明比较复杂,留待以后看。
-
模型分为生成模型和判别模型。简单地说,生成模型就是给定 能输出 ,判别模型是给定 判定是不是正确的。
-
分类问题是监督学习的一个核心问题。评估指标一般是准确率。对于二分类问题,精确率(precision):
与召回率(recall):
也是非常重要的指标。此外,还有一个指标是二者的调和平均:
-
标注问题可以看做分类问题的扩展。例如,自然语言处理中的词性标注就是一个典型标注问题。
-
回归问题是考察 与 之间关系的一类问题。在预测领域有广泛应用。
《统计学习方法》读书笔记1:概论
Share this post on: