如何将文本从pdf文件分割成段落并提取其信息?

SteliosManolis1995SteliosManolis1995 成员职位:2新手
1月16日编辑 帮助

我想找到一个拆分法律的模型,它是pdf文件。法律必须分为节、部、章、条、款。它不需要包含所有的元素。例如,一条法律可能只包含Section和Part,而另一条法律可能包含所有的Section和Part。此外,在分割后,节、部分、章、条和段可能包含的信息必须保留。所有的信息都应该显示在单独的列中,尽可能减少错误。下面这张照片展示了所有可能违反希腊法律的方式。提前感谢!


答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:829独角兽
    嗨!

    不幸的是,PDF文件是非结构化的。

    您是否尝试使用RapidMiner导入示例PDF文件?文本输出正确吗?文档输出中是否存在启用的惟一特性识别文件的某些部分是正确的部分?如果是,请尝试使用字符串匹配或正则表达式或区域提取信息或生成提取(取决于您是否想处理文档或表)。

    不同的部分在PDF中是否有唯一的格式?(例如:段落用斜体,章节用罗马数字,……)如果是,您可以尝试使用外部工具将pdf转换为XHTML,然后使用XML工具对其进行处理,直到获得可以使用read XML读取的结构。但这并不容易。

    最好的方法是尝试以结构化的形式获取原始文件。

    问候,

    Balazs
  • SteliosManolis1995SteliosManolis1995 成员职位:2新手
    谢谢你的回答!
    我会试试你的方法,我很快就会带着结果回来。

    问候,

    斯特
登录注册置评。