“抓取谷歌搜索结果”

geschwader · 2011年10月

嗨。这个论坛帮助我完成了我以前的任务(http://rapid-i.com/rapidforum/index.php/topic,3446)，所以我希望你现在也能帮助我。

这是我想做的。我有谷歌搜索结果查询“普京”(只是一个例子)与选项“显示过去24小时的结果”:
http://www.google.com.ua/search?q=Putin&; hl = en&safe = off&prmd = imvnsul&source = lnt&tbs =评估报告:d&sa = X&ei = iLGMTr-wN6On0QXioM3pBQ&ved = 0 ca0qpwuoag&biw = 1280波黑= 713
现在我想用抓取Web操作符检索所有结果。这个任务对我来说看起来很简单，但我所做的并没有奏效:-[
所以，我把http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713作为起始URL。接着，我提出了几条爬行规则:

follow_link_with_matching_urlhttp://www.google.com.ua/url?sa=t&;source=web&cd=(因为它是所有单个结果链接中不可更改的部分)
follow_link_with_matching_urlhttp://www.google.com.ua/search?q=Putin&hl=en&safe=off&biw=1280&bih=713&tbs=qdr:d&prmd= imvsul&ei =n7GMTpquCIeb-gaHlPDhCg&start=(因为它是所有结果列表页面不可更改的部分)
store_with_matching_content Putin(避免没有相关内容的页面)

整个过程代码如下:

<？xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 5.1.011 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文



http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713" / >
<列出关键= " crawling_rules " >
http://www.google.com.ua/url?sa=t&source=web&cd=" / >
http://www.google.com.ua/search?q=Putin&hl=en&safe=off&biw=1280&bih=713&tbs=qdr:d&prmd=imvnsul&ei=n7GMTpquCIeb-gaHlPDhCg&start=" / >

< / >列表








< /操作符>




> < /过程
< /操作符>
> < /过程

几秒钟过去了……我没有检索到任何页面。有什么问题吗?

geschwader · 2011年10月

起来!我认为问题在于谷歌阻止了Rapidminer的请求。有什么方法可以避免这种情况吗?

jforr · 2012年7月

有人找到解决这个问题的办法了吗?或者，是否有一种方法可以通过其他方式从谷歌搜索中提取链接url ?

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

“抓取谷歌搜索结果”

答案