文本处理pdf文件

wclasterwclaster 委员、大学教授职位:43大学教授
我正在尝试从pdf建立一个词云。这有什么“演示”吗?我需要先将pdf文件转换为文本文件吗?我看过一段视频,他建议将其转换为txt文件,并将其放在一个单独的文件夹中。((92)快速矿工文本处理- YouTube
我尝试了一个过程(见附件xml),但我得到的输出乱码(见附件图像)。有什么建议吗?谢谢你!

最佳答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    解决方案接受
    你好,
    您是否使用read_document来读取pdf?它有一个读取pdf文件的设置。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德

答案

  • wclasterwclaster 委员、大学教授职位:43大学教授
    谢谢你,马丁。就是这样
登录注册置评。