Google Scholar引文提取

sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
2018年12月编辑 知识库
截屏时间2017-11-01下午1点35分57秒

你好,快速矿工

所以今天我的任务是从Google Scholar查询中提取和组织内容。谷歌在防止抓取/爬行方面做得很好,所以你必须开始“老派”的方式,进入你搜索的每个页面,并将html保存为文本文件。一旦你这样做了,你就可以清理和组织,等等……我搜索了关键字“rapidminer”(当然),保存了前100页(乏味但不算太糟),然后使用附带的过程将其清理干净。也许你们中的一些人会觉得这有用?

斯科特

标记:
Telcontar120 yyhuang

评论

  • pusercpuserc 成员职位:6贡献我

    你能给我们这个模型的xml版本吗?

    我发现在Rapidminer 8.2.001中运行它存在一些问题


    @sgenzer写道:

    截屏时间2017-11-01下午1点35分57秒

    你好,快速矿工

    所以今天我的任务是从Google Scholar查询中提取和组织内容。谷歌在防止抓取/爬行方面做得很好,所以你必须开始“老派”的方式,进入你搜索的每个页面,并将html保存为文本文件。一旦你这样做了,你就可以清理和组织,等等……我搜索了关键字“rapidminer”(当然),保存了前100页(乏味但不算太糟),然后使用附带的过程将其清理干净。也许你们中的一些人会觉得这有用?

    斯科特



  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    @puserc- XML在文章的附件中。一个”。RapidMiner中的rmp”文件与您看到的XML完全相同。:)

  • pusercpuserc 成员职位:6贡献我

    我知道,问题是我不能直接运行,对于一些节点有一些问题。这就是我要求提供XML版本的原因。

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    只要在任何文本编辑器中打开。rmp -复制并粘贴XML到RapidMiner XML面板。这应该能奏效。

  • 1931607119316071 成员职位:1贡献我

    @sgenzer

    我是RapidMiner的新学习者,有同样的任务。我想提取Google引文。我已经通过RapidMiner的教程进行了更大层次的学习。你能先给我解释一下你是如何建立这个流程的吗?这对我有很大的帮助。

    我也渴望深入学习RapidMiner上的文本挖掘,从发表的研究文章中提取信息。你或其他人也能给我一些好的学习资源吗?乐鱼体育安装

    衷心感谢

    Mudassar

    (电子邮件保护)

登录注册置评。