将数据分类:
trainning set
hold out validation set(development set)
test set(为了无偏评估算法的运行情况)
小数据时代:
trainning set: 70%
test set: 30%
如果没有明确设置验证集, 也可以按照:
trainning set: 60%
dev set: 20%
test set: 20%
现在验证集和测试集的比例有变小的趋势。比如说有 1,000,000 条数据, 拿出 10,000 条做为验证集, 10,000 作为测试集即可。
如果不需要无偏评估, 可以不要 test set, 这时候 dev set 被称为 test set, 这时候其实是把 dev set 的数据过拟合到了 tranning set 中。
吴恩达把这种叫做 “训练验证集”。