“从UCL机器学习存储库导入数据”

DrSnuggelsDrSnuggels 成员职位:4贡献我
2019年5月编辑 帮助
嗨!

我对RapidMiner很陌生,想要从UCL机器学习存储库中导入一些数据集http://archive.ics.uci.edu/ml/。正如我从RapidMiner文档中猜测的那样,这些数据集似乎是某种C4.5格式(至少它们带有。data和。names文件)。但是当我使用c45导入器时,我总是得到这样的错误
:第1行:每行中的令牌数量必须与属性数量(15)相同,为:10
有人提示我如何导入这些文件吗?我要怎么改变他们?欢迎任何帮助。

问候,马吕斯
标记:

答案

  • TobiasMalbrechtTobiasMalbrecht 主持人、员工、会员职位:292RM产品管理
    嗨,马吕斯,

    你可以发布你试图加载的数据集,导致你提到的错误吗?!我们可以检查操作符是否显示错误。

    通常,您也可以使用[tt]CSVExampleSource[/tt]或[tt]SimpleExampleSource[/tt]操作符加载.data文件,并设置适当的参数。但是,这不会加载属性名。

    问候,
    托拜厄斯
  • DrSnuggelsDrSnuggels 成员职位:4贡献我
    你好,托拜厄斯!

    谢谢你的回答。我尝试加载的每个数据集都会出现这个问题,至少有七到八个。如果你想自己尝试一下,你可以拿动物园数据集(它是完整列表中的最后一个),它给了我相同的错误信息,只是数字不同(…为属性数(16),为:18。

    背景:我正在帮助准备一门大学课程,我们希望学生们尝试一些学习算法——不仅仅是手工学习,而是使用真实的数据。RapidMiner对我们所有人来说都很新,但它看起来很有前途。然而,出于这个目的,如果我们能说“导入数据集xy,你可以在UCL的回购”就好了。

    最坏的情况是,我们可以手动编辑数据集(如果没有属性名称,这只是一半的乐趣),但我发现我尝试的每一个数据集都无法正常工作。也许这只是一个错误的配置(尽管它不能在两台不同的机器上运行——以防它可能很重要,我们运行的是Windows XP,而且我们在德国。)这可能是代码页问题吗?),或者我遗漏了一些东西。如果我们能找到一种导入数据的方法,学生们就可以自己尝试,摆弄这些数据,并尝试评估哪种数据最适合哪种算法。

    顺便说一句,在回购中有很多很好的数据集。如果我们找到了解决方案,我会在RM-Wiki中给出提示——我想其他用户也可能从中受益。

    致以最诚挚的问候,马吕斯
  • DrSnuggelsDrSnuggels 成员职位:4贡献我
    只是在它从第一页掉下来之前把它推回到顶部——虽然我不想在公告板上发垃圾邮件,但也许Tobias或其他作家在此期间有了想法。我们手工转换了两个数据集,很快就会让我们的学生去做。当然,如果他们能挑选出他们想要使用的数据集,那就有趣多了。当我尝试的所有集合都出现错误时——也许是导入过滤器本身的错误?

    如果我能提供更多有用的信息,请告诉我。另外,如果有人知道网上有免费的训练数据存储库,那也会有所帮助。我自己做了几次搜索,但没有发现任何一个可以与伦敦大学学院的回购相提并论。

    问候,马吕斯
  • TobiasMalbrechtTobiasMalbrecht 主持人、员工、会员职位:292RM产品管理
    嗨,马吕斯,

    我刚刚看了一下伦敦大学学院提供的数据。问题是,大多数数据集并不是真正的C4.5格式。实际的数据文件在大多数情况下具有一种逗号分隔的值格式,而名称文件大多是数据的简单文本描述或摘要。您应该查看一下数据文件,然后您就会明白我的意思了。因此,使用RM中的C4.5数据读取器加载数据当然会出现问题。我看到使用UCL数据的唯一方法是下载数据文件,添加属性值并自己提供文件。我认为这不会有什么问题,从UCL下载数据集并准备数据集应该在一个小时内完成。一旦准备好,数据应该是可读的,例如通过使用[tt]CSVExampleSource[/tt]或[tt]SimpleExampleSource[/tt]操作符。

    提示一下:您检查过RM附带的示例了吗?至少包含了一些基本的集合!

    问候,
    托拜厄斯
  • DrSnuggelsDrSnuggels 成员职位:4贡献我
    嗨!

    非常感谢!这确实解释了为什么它不起作用。我在整个UCML页面上搜索了一些关于数据集文件格式的信息,但是我在任何地方都没有找到任何东西,并且在.names-files中也没有找到任何东西。因此,我从文件结尾(与RM文档中相应的部分相对应)中猜测,它应该是C4.5。

    我们将手动修复一些设置,然后再看看RM附带的样品。但是,使用UCML仓库中的一些东西可能会非常好,因为有些集合非常大,而且在某种程度上也很嘈杂。这将与小型且一致的sunny-rain -play_tennis示例形成鲜明对比。

    再次感谢您的协助。顺便说一句,如果你知道我们可以在网上找到一个或另一个与RM的导入过滤器一起工作的真实世界的集合,也许你可以在这里发布链接。可利用的资源越多,学生获得的乐趣(和痛苦)就越多。

    致以最诚挚的问候,马吕斯
登录注册置评。