抓取一个特定关键字的新闻网站
ittaj_goldberge
成员职位:6贡献我
大家好!
我是新来的!我有一个爬行网络的问题,我无法解决,我尝试了几个星期,谷歌现在…(无论如何,这看起来很简单,但我就是不明白…)
我想抓取一个新闻网站(在这里:http://www.bbc.com/)的关键字(这里:.*zuckerberg.*),并将100个结果保存在。txt中
但就是不行,我什么都试过了,但似乎就是不行。
我希望你能帮助我,请看到我的过程在。xml。
提前非常感谢您的帮助!
<?xml version="1.0" encoding="UTF-8"?>
——<过程version = " 8.2.000”>
> - <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
-<操作符名称="进程"展开="true"兼容性="8.2.000"类别="进程"激活="true">
——<过程扩展= " true " >
-
<参数值= "http://www.bbc.com/“关键= " url " / >
——<列表键=“crawling_rules”>
<参数值= " *技术。*”键= " follow_link_with_matching_url " / >
扎克伯格<参数值= " . *。*”键= " store_with_matching_url " / >
<参数值= " . *新闻。*”键= " follow_link_with_matching_url " / >
扎克伯格<参数值= " . *。*”键= " store_with_matching_content " / >
< / >列表
< /操作符>
-
<列出关键= " specify_weights " / >
——<过程扩展= " true " >
-
< /操作符>
-
< /操作符>
-
<参数值="C:\Users\Ittaj\Desktop\rapidminer\tests\%{t}-%{a}.txt" key="filename"/>
< /操作符>
> < /过程
< /操作符>
> < /过程
< /操作符>
> < /过程
标记:
0
答案
嗯,我认为你的XML代码坏了。你能去XML面板和“复制和粘贴”到这个线程吗?
谢谢,我再试一次:
嗨@ittaj_goldberge
这种类型的设置对我来说很有效,检索与扎克伯格有关的文章:
当你说“行不通”的时候,你到底是什么意思?流程是否挂起,或者交付错误的结果?
弗拉基米尔•
http://whatthefraud.wtf
嗨@kypexin
我尝试了很多不同的变体(在规则应用/值,以及深度和链接)
通常这个过程只运行一秒钟,没有结果。有时我会得到一些结果(少于20个,但我需要大约100个)。
我正在尝试用你的规则,它运行了2分钟,我很快就会更新。
所以我用你的规则再试一次,我只得到8个结果,还有一些是重复的。
你知道我怎么才能搜索扎克伯格的新闻网站并得到100条结果吗?
@ittaj_goldberge新闻网站上有超过8篇扎克伯格的文章吗?您可能需要更改depth参数以更深入地挖掘?
嗨@Thomas_Ott
当我在BBC的搜索栏里搜索扎克伯格的时候,会有上千个结果。
https://www.bbc.co.uk/search?q=zuckerberg#page=5
@ittaj_goldberge我绝对不是一个网页抓取专家,但最近在一些客户端工作中,我接触到了网页浏览器自动化。网站变得越来越聪明,为了防止人们爬上他们的网站,他们创建了各种脚本来隐藏不在第一页或“在页面上方”的内容。
我怀疑情况就是这样。你分享的链接实际上是你使用过的搜索。它需要浏览器才能访问,而且可能无法与RapidMiner这样的网络爬虫一起工作。这可能就是问题所在。
如果是这样的话@Thomas_Ott已经提到,我可能还希望你可以玩“用户代理”和“服从机器人”抓取Web操作符的参数(即,改变用户代理字符串和禁用复选框,然后比较结果):
弗拉基米尔•
http://whatthefraud.wtf