Google Scholar引文提取

sgenzer · 2017年11月

你好，快速矿工

所以今天我的任务是从Google Scholar查询中提取和组织内容。谷歌在防止抓取/爬行方面做得很好，所以你必须开始“老派”的方式，进入你搜索的每个页面，并将html保存为文本文件。一旦你这样做了，你就可以清理和组织，等等……我搜索了关键字“rapidminer”(当然)，保存了前100页(乏味但不算太糟)，然后使用附带的过程将其清理干净。也许你们中的一些人会觉得这有用?

斯科特

puserc · 2018年6月

你能给我们这个模型的xml版本吗?

我发现在Rapidminer 8.2.001中运行它存在一些问题

@sgenzer写道:

你好，快速矿工

所以今天我的任务是从Google Scholar查询中提取和组织内容。谷歌在防止抓取/爬行方面做得很好，所以你必须开始“老派”的方式，进入你搜索的每个页面，并将html保存为文本文件。一旦你这样做了，你就可以清理和组织，等等……我搜索了关键字“rapidminer”(当然)，保存了前100页(乏味但不算太糟)，然后使用附带的过程将其清理干净。也许你们中的一些人会觉得这有用?

斯科特

sgenzer · 2018年6月

嗨@puserc- XML在文章的附件中。一个”。RapidMiner中的rmp”文件与您看到的XML完全相同。

puserc · 2018年6月

我知道，问题是我不能直接运行，对于一些节点有一些问题。这就是我要求提供XML版本的原因。

sgenzer · 2018年6月

只要在任何文本编辑器中打开。rmp -复制并粘贴XML到RapidMiner XML面板。这应该能奏效。

19316071 · 2018年10月

嗨@sgenzer

我是RapidMiner的新学习者，有同样的任务。我想提取Google引文。我已经通过RapidMiner的教程进行了更大层次的学习。你能先给我解释一下你是如何建立这个流程的吗?这对我有很大的帮助。

我也渴望深入学习RapidMiner上的文本挖掘，从发表的研究文章中提取信息。你或其他人也能给我一些好的学习资源吗?乐鱼体育安装

衷心感谢

Mudassar

(电子邮件保护)

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

Google Scholar引文提取

评论