登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.5 k
所有类别
19.5 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
如何从大文本(txt格式)提取特定部分(节)?
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
如何从大文本(txt格式)提取特定部分(节)?
Enthusiast21
成员
职位:
6
新手
2019年12月
在
帮助
亲爱的RM朋友们:
我有500个包含大型报告的文本文件,我只需要提取这些报告的一个部分。由于每个报告都略有不同,我能认出的唯一常见模式是,每个部分的标题都以相同的3个词开头,但在每个部分的末尾写了一些不同的东西,接下来的部分也不一样。我的问题是我如何在一般情况下提取RapidMIner的大文本的一部分(我认为我需要使用一些正则表达式,但到目前为止我找不到任何适合我的任务)。
提前感谢您的支持!
标记:
出口
正则表达式
文本挖掘+ NLP
1
最佳答案
kayman
成员
职位:
662
独角兽
2019年12月
解决方案接受
嗨
@Enthusiast21
,正如讨论过的那样,找到了解决问题的另一种方法,首先按页面拆分(双面),然后过滤包含术语的页面(年度报告),然后使用更宽松的方法来确定左页或右页内容。这样看起来比较好,也许你可以从那里走得更远。
text.rmp
9.6 k
6
答案
kayman
成员
职位:
662
独角兽
2019年12月
正则表达式可能正是您真正需要的。你已经知道从哪里开始,所以是关于在哪里结束的部分。你不需要用言语来限制自己。空格也是一个不错的选择。
你的章节是由换行符绑定的,还是你的下一节以类似于模式的东西开始?
2
Enthusiast21
成员
职位:
6
新手
2019年12月
附件是一份报告的一部分,其中包含我需要提取的两部分(独立审计报告),这是另一个问题-有些报告包含我需要提取的两部分。我在附件中也复制了上一节的结尾和下一节的开头。报告的下一部分总是不同的,所以我找不到一个模式。我需要的每一部分都以一个日期结束,不幸的是,这对他们来说是常见的,但不是唯一的,因为通常报告中还有其他日期。
对于论坛。txt
12.9 k
0
kayman
成员
职位:
662
独角兽
2019年12月
2019年12月编辑
不错的挑战:-)
所以这个想法是先把内容分成左右两页,然后再得到部分?
你可以通过分割字符串长度来将页面分成两部分,所以基本上前70个字符属于第一页,70到140个字符属于第二页。拆分然后合并可以在一个流中获得两个页面。
在附件中可以找到一些快速和肮脏的方法。
text1.rmp
12.4 k
2
Enthusiast21
成员
职位:
6
新手
2019年12月
谢谢你解决了我问题的第一部分。很抱歉这个问题,因为我是新手,请问我在哪里输入你发给我的xml Code ?我在xml面板中尝试过,但之后我不知道如何使该进程出现,然后在RapidMiner中运行。
关于模式——我知道开头是独立审计员的报告,但我不知道结尾是日期,但如何不把所有以日期结束的东西都拿出来呢?除了单词,我还能找到什么类型的模式?
非常感谢您的支持!
0
kayman
成员
职位:
662
独角兽
2019年12月
Views -> xml ->粘贴并在保存前打绿色勾
1
Enthusiast21
成员
职位:
6
新手
2019年12月
我怎么做才能消除这个错误?
0
kayman
成员
职位:
662
独角兽
2019年12月
从市场上安装工具箱扩展,但您也可以将其替换为常见的追加操作符
0
Enthusiast21
成员
职位:
6
新手
2019年12月
谢谢你!我做到了,但现在我有新问题了。你也能帮我一下吗?
0
kayman
成员
职位:
662
独角兽
2019年12月
你的原始文件可能有更多问题。您是否已经验证了它与您提供的“for the forum”txt文件是否有效?这样我们就可以确保我们使用的是相同的环境条件。
然后在将解码url的操作符的解码更改为utf-8后再对数据进行尝试,这也可以解决原始文本的一些编码问题。
0
Enthusiast21
成员
职位:
6
新手
2019年12月
与文件“为论坛”它完美地工作,我不明白为什么原来的一个没有,然后我只复制了部分文本从它在新的文本文件,我上传在这里。我尝试使用在线工具将其更改为utf-8,但结果文件没有给出任何更好的结果。有没有别的方法来解码这个文件?
0
kayman
成员
职位:
662
独角兽
2019年12月
你介意分享全文吗?如果您方便的话,可以在下午发给我。
1
登录
或
注册
置评。
答案
你的章节是由换行符绑定的,还是你的下一节以类似于模式的东西开始?
所以这个想法是先把内容分成左右两页,然后再得到部分?
你可以通过分割字符串长度来将页面分成两部分,所以基本上前70个字符属于第一页,70到140个字符属于第二页。拆分然后合并可以在一个流中获得两个页面。
在附件中可以找到一些快速和肮脏的方法。
关于模式——我知道开头是独立审计员的报告,但我不知道结尾是日期,但如何不把所有以日期结束的东西都拿出来呢?除了单词,我还能找到什么类型的模式?
非常感谢您的支持!
然后在将解码url的操作符的解码更改为utf-8后再对数据进行尝试,这也可以解决原始文本的一些编码问题。