如何划分测试集和训练集

机器学习划分训练集和测试集的方法目前遇到如何划分机器学习中训练集和测试集的问题，找了各方面的资料，发现知乎大佬给出了详细解答，故转载如下（文末附参考链接）：

好乐无荒_

33264人浏览 · 2021-10-29 14:00:38

好乐无荒_ · 2021-10-29 14:00:38 发布

机器学习划分训练集和测试集的方法

目前遇到如何划分机器学习中训练集和测试集的问题，找了各方面的资料，发现知乎大佬给出了详细解答，故转载如下（文末附参考链接）：

机器学习常见步骤

1.对数据集进行划分，分为训练集和测试集两部分；
2.对模型在测试集上面的泛化性能进行度量；
3.基于测试集上面的泛化性能，依据假设检验来推广到全部数据集上面的泛化性能。

三种数据集的含义

在进行机器学习算法之前，通常需要将数据集划分，通常分为训练集和测试集，部分还有验证集。首先介绍这三种数据集的含义：

**训练集（Training Set）：**帮助我们训练模型，即通过训练集的数据让我们确定拟合曲线的参数。
**验证集（Validation Set）：**用来做模型选择（model selection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，可选；
测试集（Test Set）： 为了测试已经训练好的模型的精确度。因为在训练模型的时候，参数全是根据现有训练集里的数据进行修正、拟合，有可能会出现过拟合的情况，即这个参数仅对训练集里的数据拟合比较准确，如果出现一个新数据需要利用模型预测结果，准确率可能就会很差。
所以测试集的作用是为了对学习器的泛化误差进行评估，即进行实验测试以判别学习器对新样本的判别能力，同时以测试集的的测试误差”作为泛化误差的近似。因此在分配训练集和测试集的时候，如果测试集的数据越小，对模型的泛化误差的估计将会越不准确。所以需要在划分数据集的时候进行权衡。

测试集的比例
训练集数据的数量一般占2/3到4/5。在实际应用中，基于整个数据集数据的大小，训练集数据和测试集数据的划分比例可以是6:4、7:3或8:2。对于庞大的数据可以使用9:1，甚至是99:1。具体根据测试集的划分方法有所不同。

常见的划分方法

留出法
直接将数据集D划分为两个互斥的的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T, S ∩ T = 空集。在S上训练出模型后，用T来评估其误差。

需要注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入的额外的偏差而对最终结果产生影响。例如在分类任务中，至少要保持样本的类别比例相似。从”采样”的角度来看待数据集的划分过程，则保留类别比例的采样方式通常称为“分层采样”。例如从1000个数据里，分层采样获得70%样本的训练集S和30%样本的测试集T，若D包含500个正例，500个反例，则分层采样得到的S应包含350个正例，350个反例，T应包含150个正例，150个反例；若S、T中样本比例差别很大，则最终拟合的误差将会变大。

一般，在用留出法划分集合的时候，会通过若干次随机划分、重复实验评估后取平均值作为留出法的评估结果，减少误差。留出法还有一个问题就是，到底我们训练集和测试集应该按照什么比例来划分呢？如果我们训练集的比例比较大，可能会导致训练出的模型更接近于用D训练出的模型，同时T较小，评价结果又不够准确；若T的比例比较大，则有可能导致评估的模型与之前有较大的差别，从而降低了评估的保真性。这个问题没有完美的解决方案，常见的做法是将大约2/3~4/5的样本用于训练。

交叉验证法

将数据集D划分为k个大小相似的互斥子集，即D=D1∪D2∪…∪Dk，Di ∩ Dj = 空集（i ≠j）每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。

交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值，为了强调这一点，通常把交叉验证法称为”k折交叉验证”（k-fold cross validation），k通常取10—10折交叉验证。
在这里插入图片描述

交叉验证的好处就是从有限的数据中尽可能挖掘多的信息，从各种角度去学习我们现有的有限的数据，避免出现局部的极值。在这个过程中无论是训练样本还是测试样本都得到了尽可能多的学习。

交叉验证法的缺点就是，当数据集比较大时，训练模型的开销较大。

自助法

给定包含m个样本的数据集D，我们对它进行采样产生数据集D’:每次从D中挑选一个样本，将其放入D’，然后再将该样本放回初始数据集D中；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’，取极限为
在这里插入图片描述
即通过自助采样，初始数据集D中约有36.8%的样本未出现在采样集D′里。于是，实际评估的模型与期望评估的模型都是使用m个样本，而我们仍有数据总量约1/3的没在训练集出现过的样本用于测试。