使用Excel文件进行文本挖掘

joshua_gelhaarjoshua_gelhaar 成员职位:5贡献我
2019年6月编辑 帮助

你好,

我有一个excel文件,其中一栏填满了电子邮件地址。现在我想添加一列,将地址分组在其中。例如@abc是第一组@dfg是第二族,以此类推。我考虑过使用文本挖掘地址,但我已经无法将excel文件中的数据转换为文档。

希望得到帮助。

问候,

约书亚

最佳答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
    解决方案接受

    你好,

    所以你想提取一个电子邮件地址的域名?如果是,您可以使用Replace执行此操作。附件是一个示例流程。

    欢呼,

    马丁

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.0.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    <列出关键= " attribute_value " >
    (电子邮件保护)“;" / >
    < / >列表
    <列出关键= " set_additional_roles " / >
    < /操作符>



    < /操作符>



    @ (+)。" / >

    < /操作符>






    > < /过程
    < /操作符>
    > < /过程
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    sgenzer

答案

  • joshua_gelhaarjoshua_gelhaar 成员职位:5贡献我

    你好马丁,

    谢谢你的回答。我认为替换操作符不是我关心的那个。在我的excel列表中有很多来自不同公司的电子邮件。现在要添加另一列并对它们进行分组。所以,所有的电子邮件@company1会得到1和@company2将得到新列中的2。

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家

    你好,

    看看我张贴的过程。它将为您提供一个名为domain的新属性,其中一个为“company1.com”,另一个为“company2.com”。

    最好的

    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    sgenzer
  • joshua_gelhaarjoshua_gelhaar 成员职位:5贡献我

    好的,谢谢。我如何在我的RapidMiner中使用/复制您的进程?

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    sgenzer
  • joshua_gelhaarjoshua_gelhaar 成员职位:5贡献我

    谢谢你!看起来是一个很好的解决方案,我会试试的!

登录注册置评。