如何将预测的测试数据集应用于随机未标记的验证数据集
最好的答案
-
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽嗨@Akshay21,
如果你的验证集没有标记,你就不能在这个验证集上拥有模型的准确性(即校正分类示例的比例)。
只有当你提供“真实标签”和“预测标签”时,才能获得模型的准确性:在你的情况下,你没有“真实标签”。
问候,
莱昂内尔
5 -
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽嗨@Akshay21,
根据我的未标记验证集没有“True”标签,我们只会随机得到预测及其置信度比。对吧?使用你所谓的“无标签验证集”,你将在应用你的训练模型(用你的训练集训练,用你所谓的“测试集”验证)到你的“无标签验证集”后得到预测。
是的,你会对你的品牌的每一类都有信心。
我如何确保在验证集上测试测试数据之后,我们应该部署模型?我们永远无法100%确定,在测试集上计算的性能绝对代表生产模型在未见数据上的未来性能。
“最佳实践”(又名“黄金标准”)是使用“k-fold交叉验证”来验证你的模型,但这意味着创建k个模型,如果你有一个巨大的数据集,这可能需要大量的计算时间。
一个很好的折衷方法是使用“多保留集验证”:在这种情况下,您只构建一个模型,因此它不需要像“交叉验证”那样大量的资源。乐鱼体育安装供参考,“多保留集验证”是RapidMiner的Auto-Model中用于计算模型性能的验证。您可以在Auto-model过程的结果屏幕(最后一个屏幕)中查看关于此验证方法的文档。
还有两个资源:乐鱼体育安装
关于交叉验证,一篇完整的文章由@sgenzer:
https://community.www.turtlecreekpls.com/discussion/55112/cross-validation-and-its-outputs-in-rm-studio
关于如何正确验证一个模型,由Ingo Mierswa博士撰写的完整文章(@IngoRM)(附文件)。
希望这能有所帮助,
问候,
莱昂内尔
5
答案
还有一件事,验证集的置信度(真)、置信度(假)和准确性之间有什么关系吗?
根据我的未标记验证集没有“True”标签,我们只会随机得到预测及其置信度比。对吧?
我如何确保在验证集上测试测试数据之后,我们应该部署模型?
任何建议都会很有帮助。