语言过滤器只保留英语

JamieLimJamieLim 成员职位:3.新手
2020年7月编辑 帮助
我的文件包括英语和其他语言的混合。我是否可以进行筛选,只保留英文文本,而不需要遍历所有文档来识别我想要排除的所有其他语言?
标记:

最好的答案

  • JamieLimJamieLim 成员职位:3.新手
    解决方案接受
    我最终使用python将段落分割成句子,然后从非英语句子中识别出英语句子,并设法做了一个很好的过滤器。然后,将过滤文本传递到RapidMiner,进行标记,仍然留下一些非英语单词,并通过将它们添加到停顿词字典中来删除它们。
    sgenzer

答案

  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    啊,有趣的问题。简短的回答是“不容易”。微笑:在我看来,你有两个选择:

    -手动对一组文档进行分类,并训练ML模型来区分它们,然后将该模型应用于所有新文档。
    -使用外部API(如Google Translate或AWS Translate)为您完成此操作

    斯科特
  • JamieLimJamieLim 成员职位:3.新手
    2020年7月编辑
    sgenzer如果我们只保留文本中的字母数字和空格呢?有没有更简单的方法来实现这一点?
  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    @JamieLim引用亚历山大的欧几里得的话:

    在几何学上没有捷径。

    或者换句话说,有时候没有快速而肮脏的答案。微笑:

    斯科特
    lionelderkrikor
登录注册置评。