“抓取谷歌搜索结果”

geschwadergeschwader 成员职位:16Maven
2019年6月编辑 帮助
嗨。这个论坛帮助我完成了我以前的任务(http://rapid-i.com/rapidforum/index.php/topic,3446),所以我希望你现在也能帮助我。

这是我想做的。我有谷歌搜索结果查询“普京”(只是一个例子)与选项“显示过去24小时的结果”:
http://www.google.com.ua/search?q=Putin&; hl = en&safe = off&prmd = imvnsul&source = lnt&tbs =评估报告:d&sa = X&ei = iLGMTr-wN6On0QXioM3pBQ&ved = 0 ca0qpwuoag&biw = 1280波黑= 713
现在我想用抓取Web操作符检索所有结果。这个任务对我来说看起来很简单,但我所做的并没有奏效:-[
所以,我把http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713作为起始URL。接着,我提出了几条爬行规则:
  • follow_link_with_matching_urlhttp://www.google.com.ua/url?sa=t&;source=web&cd=(因为它是所有单个结果链接中不可更改的部分)
  • follow_link_with_matching_urlhttp://www.google.com.ua/search?q=Putin&hl=en&safe=off&biw=1280&bih=713&tbs=qdr:d&prmd= imvsul&ei =n7GMTpquCIeb-gaHlPDhCg&start=(因为它是所有结果列表页面不可更改的部分)
  • store_with_matching_content Putin(避免没有相关内容的页面)
整个过程代码如下:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 5.1.011 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文



http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713" / >
<列出关键= " crawling_rules " >
http://www.google.com.ua/url?sa=t&source=web&cd=" / >
http://www.google.com.ua/search?q=Putin&hl=en&safe=off&biw=1280&bih=713&tbs=qdr:d&prmd=imvnsul&ei=n7GMTpquCIeb-gaHlPDhCg&start=" / >

< / >列表








< /操作符>




> < /过程
< /操作符>
> < /过程
几秒钟过去了……我没有检索到任何页面。有什么问题吗?
标记:

答案

  • geschwadergeschwader 成员职位:16Maven
    起来!我认为问题在于谷歌阻止了Rapidminer的请求。有什么方法可以避免这种情况吗?
  • jforrjforr 成员职位:7因素二世
    有人找到解决这个问题的办法了吗?或者,是否有一种方法可以通过其他方式从谷歌搜索中提取链接url ?
登录注册置评。