文本作为数据类型

dvvilkinsdvvilkins 成员职位:1新手
RapidMiner有一篇很好的关于数据类型转换的博客文章(RM不让我作为一个新手链接到),它对数据类型进行了分类。唯一的问题是它没有提到文本作为数据类型。然而,标称到文本操作符的RM教程过程清楚地将文本作为自己的数据“类型”,并将其与标称区分开来。这就引出了三个问题:
  1. 下面这张RM博客的图片里的文字应该放在哪里?
  2. 我如何知道我的数据是文本还是名义/多项式?我能从统计选项卡中看到吗?
  3. 字符串值的概念在哪里适用于所有这些?来自NTT运营商描述:“此外,标称转文本操作符的描述说'此操作符将所选标称属性的类型更改为文本。它还将这些属性的所有值映射到相应的字符串值。”

抱歉所有的问题,但RM文档在这方面是缺乏的。


答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    你好,

    这是它背后的想法:
    • 标称类型是针对不同组项的类型。例如,每个人都需要乘坐一等舱、二等舱或三等舱。
    • 另一方面,文本是唯一的。报纸上的两篇文章不应该是一模一样的复制品。
    这就是为什么文本会独立于标称类型,以及为什么文本可能与标称类型处理方式不同。此外,人们可能会考虑以不同的方式存储文本和名词。但这是一个不同的故事,据我所知,情况并非如此。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    BalazsBarany
登录注册置评。