Google Scholar引文提取
你好,快速矿工
所以今天我的任务是从Google Scholar查询中提取和组织内容。谷歌在防止抓取/爬行方面做得很好,所以你必须开始“老派”的方式,进入你搜索的每个页面,并将html保存为文本文件。一旦你这样做了,你就可以清理和组织,等等……我搜索了关键字“rapidminer”(当然),保存了前100页(乏味但不算太糟),然后使用附带的过程将其清理干净。也许你们中的一些人会觉得这有用?
斯科特
标记:
2
评论
你能给我们这个模型的xml版本吗?
我发现在Rapidminer 8.2.001中运行它存在一些问题
嗨@puserc- XML在文章的附件中。一个”。RapidMiner中的rmp”文件与您看到的XML完全相同。
我知道,问题是我不能直接运行,对于一些节点有一些问题。这就是我要求提供XML版本的原因。
只要在任何文本编辑器中打开。rmp -复制并粘贴XML到RapidMiner XML面板。这应该能奏效。
嗨@sgenzer
我是RapidMiner的新学习者,有同样的任务。我想提取Google引文。我已经通过RapidMiner的教程进行了更大层次的学习。你能先给我解释一下你是如何建立这个流程的吗?这对我有很大的帮助。
我也渴望深入学习RapidMiner上的文本挖掘,从发表的研究文章中提取信息。你或其他人也能给我一些好的学习资源吗?乐鱼体育安装
衷心感谢
Mudassar
(电子邮件保护)