“抓取谷歌搜索结果”
geschwader
成员职位:16Maven
嗨。这个论坛帮助我完成了我以前的任务(http://rapid-i.com/rapidforum/index.php/topic,3446),所以我希望你现在也能帮助我。
这是我想做的。我有谷歌搜索结果查询“普京”(只是一个例子)与选项“显示过去24小时的结果”:
http://www.google.com.ua/search?q=Putin&; hl = en&safe = off&prmd = imvnsul&source = lnt&tbs =评估报告:d&sa = X&ei = iLGMTr-wN6On0QXioM3pBQ&ved = 0 ca0qpwuoag&biw = 1280波黑= 713
现在我想用抓取Web操作符检索所有结果。这个任务对我来说看起来很简单,但我所做的并没有奏效:-[
所以,我把http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713作为起始URL。接着,我提出了几条爬行规则:
这是我想做的。我有谷歌搜索结果查询“普京”(只是一个例子)与选项“显示过去24小时的结果”:
http://www.google.com.ua/search?q=Putin&; hl = en&safe = off&prmd = imvnsul&source = lnt&tbs =评估报告:d&sa = X&ei = iLGMTr-wN6On0QXioM3pBQ&ved = 0 ca0qpwuoag&biw = 1280波黑= 713
现在我想用抓取Web操作符检索所有结果。这个任务对我来说看起来很简单,但我所做的并没有奏效:-[
所以,我把http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713作为起始URL。接着,我提出了几条爬行规则:
- follow_link_with_matching_urlhttp://www.google.com.ua/url?sa=t&;source=web&cd=(因为它是所有单个结果链接中不可更改的部分)
- follow_link_with_matching_urlhttp://www.google.com.ua/search?q=Putin&hl=en&safe=off&biw=1280&bih=713&tbs=qdr:d&prmd= imvsul&ei =n7GMTpquCIeb-gaHlPDhCg&start=(因为它是所有结果列表页面不可更改的部分)
- store_with_matching_content Putin(避免没有相关内容的页面)
<?xml version="1.0" encoding="UTF-8" standalone="no"?>几秒钟过去了……我没有检索到任何页面。有什么问题吗?
<过程version = " 5.1.011 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文http://www.google.com.ua/search?q=Putin&hl=en&safe=off&prmd=imvnsul&source=lnt&tbs=qdr:d&sa=X&ei=iLGMTr-wN6On0QXioM3pBQ&ved=0CA0QpwUoAg&biw=1280&bih=713" / >
<列出关键= " crawling_rules " >http://www.google.com.ua/url?sa=t&source=web&cd=" / > http://www.google.com.ua/search?q=Putin&hl=en&safe=off&biw=1280&bih=713&tbs=qdr:d&prmd=imvnsul&ei=n7GMTpquCIeb-gaHlPDhCg&start=" / >
< / >列表
< /操作符>
> < /过程
< /操作符>
> < /过程
标记:
0
答案