“基于表单的处理/基于模板的提取”

thapli_64thapli_64 成员职位:18Maven
2019年6月编辑 帮助

你好,

我想知道是否有任何先例(在RapidMiner)处理和提取文本信息的形式,我们有模板,使用基于规则的方法或甚至可能是机器学习?

标记:

最佳答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    解决方案接受
    @thapli_64-给你写了一个PM。

    斯科特
    thapli_64

答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    你好@thapli_64-所以有很多方法可以从各种来源提取和处理文本。模板的格式是什么?

    斯科特

  • thapli_64thapli_64 成员职位:18Maven

    @sgenzer谢谢你的回复。所以我检查,似乎我们不会真的有模板之前手本身。但是我们会有很多文档(表单)有特定的布局。我们将对它们执行OCR,所以我们将有TXT和XML文件。我想这些可以作为一个起点。我希望这能澄清一些事情。

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    @thapli_64-是的,这一切都很有意义,都非常可行。您将希望对TXT文件使用Text Processing扩展,并对XML文件使用Read XML操作符。然后你就可以开始跑步了。:)

    斯科特

  • thapli_64thapli_64 成员职位:18Maven

    @sgenzer我一直在尝试使用Read XML操作符,但遇到了严重的问题。你能给我指出一些教程或其他资源来介绍这个操作符吗这样我就能弄清楚我是否正确地使用了它?

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    嗯,这是个好问题。实际上我不知道有阅读XML教程。也许您可以将您要阅读的xml文件连同您的过程xml一起发布出来,我可以看一看?

    斯科特

  • thapli_64thapli_64 成员职位:18Maven

    @sgenzer这就是我一直遇到的麻烦。我已经成功地找到了关于我遇到的几乎所有问题的资源,但是Read XML特乐鱼体育安装别令人烦恼。我们有什么地方可以申请这个吗?也许有些东西也可以在即将到来的博客文章,网络研讨会或办公时间中讨论?

    我的公司是RM的客户。有没有人能帮我们一对一地解决这个问题?

    不幸的是,XML文件包含敏感数据,因此我不能共享它们。我会尝试看看我是否可以创建或获取假数据的虚拟文件。

  • thapli_64thapli_64 成员职位:18Maven

    由于斯科特

登录注册置评。