训练集、验证集和测试集-Shmily's Blog

在有监督(supervise)的机器学习中，数据集常被分成2~3个，即：训练集(train set)，验证集(validation set)，测试集(test set)。

训练集：学习样本数据集，通过匹配一些参数来建立一个分类器。建立一种分类的方式，主要是用来训练模型的。

验证集：对学习出来的模型，调整分类器的参数，如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。

测试集：主要是测试训练好的模型的分辨能力（识别率等）

为什么要划分

简而言之，为了防止过度拟合。如果我们把所有数据都用来训练模型的话，建立的模型自然是最契合这些数据的，测试表现也好。但换了其它数据集测试这个模型效果可能就没那么好了。就好像你给班上同学做校服，大家穿着都合适你就觉得按这样做就对了，那给别的班同学穿呢？不合适的概率会高吧。总而言之训练集和测试集相同的话，模型评估结果可能比实际要好。

一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。

训练集、验证集和测试集

为什么要划分

产品相关

没有故事也没有酒

为什么要划分

产品相关

没有故事 也没有酒

没有故事也没有酒