如何从大文本(txt格式)提取特定部分(节)?

Enthusiast21 · 2019年12月

亲爱的RM朋友们:

我有500个包含大型报告的文本文件，我只需要提取这些报告的一个部分。由于每个报告都略有不同，我能认出的唯一常见模式是，每个部分的标题都以相同的3个词开头，但在每个部分的末尾写了一些不同的东西，接下来的部分也不一样。我的问题是我如何在一般情况下提取RapidMIner的大文本的一部分(我认为我需要使用一些正则表达式，但到目前为止我找不到任何适合我的任务)。

提前感谢您的支持!

kayman · 2019年12月

嗨@Enthusiast21，正如讨论过的那样，找到了解决问题的另一种方法，首先按页面拆分(双面)，然后过滤包含术语的页面(年度报告)，然后使用更宽松的方法来确定左页或右页内容。这样看起来比较好，也许你可以从那里走得更远。

kayman · 2019年12月

正则表达式可能正是您真正需要的。你已经知道从哪里开始，所以是关于在哪里结束的部分。你不需要用言语来限制自己。空格也是一个不错的选择。

你的章节是由换行符绑定的，还是你的下一节以类似于模式的东西开始?

Enthusiast21 · 2019年12月

附件是一份报告的一部分，其中包含我需要提取的两部分(独立审计报告)，这是另一个问题-有些报告包含我需要提取的两部分。我在附件中也复制了上一节的结尾和下一节的开头。报告的下一部分总是不同的，所以我找不到一个模式。我需要的每一部分都以一个日期结束，不幸的是，这对他们来说是常见的，但不是唯一的，因为通常报告中还有其他日期。

kayman · 2019年12月

不错的挑战:-)
所以这个想法是先把内容分成左右两页，然后再得到部分?

你可以通过分割字符串长度来将页面分成两部分，所以基本上前70个字符属于第一页，70到140个字符属于第二页。拆分然后合并可以在一个流中获得两个页面。

在附件中可以找到一些快速和肮脏的方法。

Enthusiast21 · 2019年12月

谢谢你解决了我问题的第一部分。很抱歉这个问题，因为我是新手，请问我在哪里输入你发给我的xml Code ?我在xml面板中尝试过，但之后我不知道如何使该进程出现，然后在RapidMiner中运行。

关于模式——我知道开头是独立审计员的报告，但我不知道结尾是日期，但如何不把所有以日期结束的东西都拿出来呢?除了单词，我还能找到什么类型的模式?

非常感谢您的支持!

kayman · 2019年12月

Views -> xml ->粘贴并在保存前打绿色勾

Enthusiast21 · 2019年12月

我怎么做才能消除这个错误?

Image: https://us.v-cdn.net/6030995/uploads/editor/tg/w68sga4hxmui.png

kayman · 2019年12月

从市场上安装工具箱扩展，但您也可以将其替换为常见的追加操作符

Enthusiast21 · 2019年12月

谢谢你！我做到了，但现在我有新问题了。你也能帮我一下吗?

Image: https://us.v-cdn.net/6030995/uploads/editor/z9/60po7pjuvdnp.png

kayman · 2019年12月

你的原始文件可能有更多问题。您是否已经验证了它与您提供的“for the forum”txt文件是否有效?这样我们就可以确保我们使用的是相同的环境条件。
然后在将解码url的操作符的解码更改为utf-8后再对数据进行尝试，这也可以解决原始文本的一些编码问题。

Enthusiast21 · 2019年12月

与文件“为论坛”它完美地工作，我不明白为什么原来的一个没有，然后我只复制了部分文本从它在新的文本文件，我上传在这里。我尝试使用在线工具将其更改为utf-8，但结果文件没有给出任何更好的结果。有没有别的方法来解码这个文件?

kayman · 2019年12月

你介意分享全文吗?如果您方便的话，可以在下午发给我。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

如何从大文本(txt格式)提取特定部分(节)?

最佳答案

答案