抓取一个特定关键字的新闻网站

ittaj_goldberge · 2018年5月

大家好！

我是新来的!我有一个爬行网络的问题，我无法解决，我尝试了几个星期，谷歌现在…(无论如何，这看起来很简单，但我就是不明白…)

我想抓取一个新闻网站(在这里:http://www.bbc.com/)的关键字(这里:.*zuckerberg.*)，并将100个结果保存在。txt中

但就是不行，我什么都试过了，但似乎就是不行。

我希望你能帮助我，请看到我的过程在。xml。

提前非常感谢您的帮助!

＜?xml version="1.0" encoding="UTF-8"?>

——<过程version = " 8.2.000”>


> - <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文


-<操作符名称="进程"展开="true"兼容性="8.2.000"类别="进程"激活="true">














——<过程扩展= " true " >


-

<参数值= "http://www.bbc.com/“关键= " url " / >


——<列表键=“crawling_rules”>

<参数值= " *技术。*”键= " follow_link_with_matching_url " / >

扎克伯格<参数值= " . *。*”键= " store_with_matching_url " / >

<参数值= " . *新闻。*”键= " follow_link_with_matching_url " / >

扎克伯格<参数值= " . *。*”键= " store_with_matching_content " / >

< / >列表

























< /操作符>


-

























<列出关键= " specify_weights " / >


——<过程扩展= " true " >


-



















< /操作符>




-





< /操作符>


-



<参数值="C:\Users\Ittaj\Desktop\rapidminer\tests\%{t}-%{a}.txt" key="filename"/>



< /操作符>

















> < /过程

< /操作符>











> < /过程

< /操作符>

> < /过程

sgenzer · 2018年5月

嗯，我认为你的XML代码坏了。你能去XML面板和“复制和粘贴”到这个线程吗?

ittaj_goldberge · 2018年5月

谢谢，我再试一次:

＜?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

http://www.bbc.com/" / >
<列出关键= " crawling_rules " >




< / >列表






< /操作符>



<列出关键= " specify_weights " / >
<过程扩展= " true " >





< /操作符>








> < /过程
< /操作符>





> < /过程
< /操作符>
> < /过程

kypexin · 2018年5月

嗨@ittaj_goldberge

这种类型的设置对我来说很有效，检索与扎克伯格有关的文章:

截图2018-05-11 22.57.21.png

当你说“行不通”的时候，你到底是什么意思?流程是否挂起，或者交付错误的结果?

ittaj_goldberge · 2018年5月

嗨@kypexin

我尝试了很多不同的变体(在规则应用/值，以及深度和链接)

通常这个过程只运行一秒钟，没有结果。有时我会得到一些结果(少于20个，但我需要大约100个)。

我正在尝试用你的规则，它运行了2分钟，我很快就会更新。

ittaj_goldberge · 2018年5月

所以我用你的规则再试一次，我只得到8个结果，还有一些是重复的。

你知道我怎么才能搜索扎克伯格的新闻网站并得到100条结果吗?

Thomas_Ott · 2018年5月

@ittaj_goldberge新闻网站上有超过8篇扎克伯格的文章吗?您可能需要更改depth参数以更深入地挖掘?

ittaj_goldberge · 2018年5月

嗨@Thomas_Ott

当我在BBC的搜索栏里搜索扎克伯格的时候，会有上千个结果。

https://www.bbc.co.uk/search?q=zuckerberg#page=5

Thomas_Ott · 2018年5月

@ittaj_goldberge我绝对不是一个网页抓取专家，但最近在一些客户端工作中，我接触到了网页浏览器自动化。网站变得越来越聪明，为了防止人们爬上他们的网站，他们创建了各种脚本来隐藏不在第一页或“在页面上方”的内容。

我怀疑情况就是这样。你分享的链接实际上是你使用过的搜索。它需要浏览器才能访问，而且可能无法与RapidMiner这样的网络爬虫一起工作。这可能就是问题所在。

kypexin · 2018年5月

如果是这样的话@Thomas_Ott已经提到，我可能还希望你可以玩“用户代理”和“服从机器人”抓取Web操作符的参数(即，改变用户代理字符串和禁用复选框，然后比较结果):

MultanTVHD · 2020年8月

你好，你的答案在这个网站上

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

抓取一个特定关键字的新闻网站

答案