抓取一个特定关键字的新闻网站

ittaj_goldbergeittaj_goldberge 成员职位:6贡献我
2018年11月编辑 帮助

大家好!

我是新来的!我有一个爬行网络的问题,我无法解决,我尝试了几个星期,谷歌现在…(无论如何,这看起来很简单,但我就是不明白…)

我想抓取一个新闻网站(在这里:http://www.bbc.com/)的关键字(这里:.*zuckerberg.*),并将100个结果保存在。txt中

但就是不行,我什么都试过了,但似乎就是不行。

我希望你能帮助我,请看到我的过程在。xml。

提前非常感谢您的帮助!

<?xml version="1.0" encoding="UTF-8"?>

——<过程version = " 8.2.000”>


> - <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文


-<操作符名称="进程"展开="true"兼容性="8.2.000"类别="进程"激活="true">














——<过程扩展= " true " >


-

<参数值= "http://www.bbc.com/“关键= " url " / >


——<列表键=“crawling_rules”>

<参数值= " *技术。*”键= " follow_link_with_matching_url " / >

扎克伯格<参数值= " . *。*”键= " store_with_matching_url " / >

<参数值= " . *新闻。*”键= " follow_link_with_matching_url " / >

扎克伯格<参数值= " . *。*”键= " store_with_matching_content " / >

< / >列表

























< /操作符>


-

























<列出关键= " specify_weights " / >


——<过程扩展= " true " >


-



















< /操作符>




-





< /操作符>


-



<参数值="C:\Users\Ittaj\Desktop\rapidminer\tests\%{t}-%{a}.txt" key="filename"/>



< /操作符>

















> < /过程

< /操作符>











> < /过程

< /操作符>

> < /过程

标记:

答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    嗯,我认为你的XML代码坏了。你能去XML面板和“复制和粘贴”到这个线程吗?

  • ittaj_goldbergeittaj_goldberge 成员职位:6贡献我

    谢谢,我再试一次:

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    http://www.bbc.com/" / >
    <列出关键= " crawling_rules " >




    < / >列表






    < /操作符>



    <列出关键= " specify_weights " / >
    <过程扩展= " true " >





    < /操作符>








    > < /过程
    < /操作符>





    > < /过程
    < /操作符>
    > < /过程
  • kypexinkypexin 主持人,RapidMiner认证分析师,会员职位:290独角兽

    @ittaj_goldberge

    这种类型的设置对我来说很有效,检索与扎克伯格有关的文章:

    截图2018-05-11 22.57.21.png

    当你说“行不通”的时候,你到底是什么意思?流程是否挂起,或者交付错误的结果?

    --
    弗拉基米尔•
    http://whatthefraud.wtf
  • ittaj_goldbergeittaj_goldberge 成员职位:6贡献我

    @kypexin

    我尝试了很多不同的变体(在规则应用/值,以及深度和链接)

    通常这个过程只运行一秒钟,没有结果。有时我会得到一些结果(少于20个,但我需要大约100个)。

    我正在尝试用你的规则,它运行了2分钟,我很快就会更新。

  • ittaj_goldbergeittaj_goldberge 成员职位:6贡献我

    所以我用你的规则再试一次,我只得到8个结果,还有一些是重复的。

    你知道我怎么才能搜索扎克伯格的新闻网站并得到100条结果吗?

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    @ittaj_goldberge新闻网站上有超过8篇扎克伯格的文章吗?您可能需要更改depth参数以更深入地挖掘?

  • ittaj_goldbergeittaj_goldberge 成员职位:6贡献我

    @Thomas_Ott

    当我在BBC的搜索栏里搜索扎克伯格的时候,会有上千个结果。

    https://www.bbc.co.uk/search?q=zuckerberg#page=5

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    @ittaj_goldberge我绝对不是一个网页抓取专家,但最近在一些客户端工作中,我接触到了网页浏览器自动化。网站变得越来越聪明,为了防止人们爬上他们的网站,他们创建了各种脚本来隐藏不在第一页或“在页面上方”的内容。

    我怀疑情况就是这样。你分享的链接实际上是你使用过的搜索。它需要浏览器才能访问,而且可能无法与RapidMiner这样的网络爬虫一起工作。这可能就是问题所在。

  • kypexinkypexin 主持人,RapidMiner认证分析师,会员职位:290独角兽

    如果是这样的话@Thomas_Ott已经提到,我可能还希望你可以玩“用户代理”和“服从机器人”抓取Web操作符的参数(即,改变用户代理字符串和禁用复选框,然后比较结果):

    webcrawl.png

    --
    弗拉基米尔•
    http://whatthefraud.wtf
    Thomas_Ott
  • MultanTVHDMultanTVHD 成员职位:1新手
    你好,你的答案在这个网站上
登录注册置评。