"抓取带有空格的页面时出现问题"

oju987oju987 成员职位:4因素二世
2019年6月编辑 帮助

我已经使用Rapidminer有一段时间了,并且有一些使用网页爬行的经验,没有出现大问题。但有一项新任务让我很困惑。

Url是这样的:

http: \ \www.movilauto.com \丰田rav4 html 2012.

http: \ \www.movilauto.com \宝马320html 2013.

我通常会用。+movilauto。+得到这些页面,它会工作得很好。但显然空间是个问题。

更复杂的是,数字或空格不是固定的,有时像前面的例子一样有2个,有时像下面的例子一样有3个

http: \ \www.movilauto.com \丰田Rav4 automatic 2012.html

有什么建议吗?

标记:

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:909独角兽

    嗨!

    使用Encode url操作符(在Web挖掘扩展中)来正确传递url。

    注意:使用反斜杠代替斜杠也会破坏一切,所以你也应该替换它们。

    问候,

    Balazs

  • oju987oju987 成员职位:4因素二世

    谢谢Balázs,谢谢你的回答。

    我在反斜杠上的错误,我检查了rapidminer操作符,我使用了正确的斜杠,这是我写这篇文章时的打字错误。

    我找到了Encode url操作符,但我不确定如何使用它,我的过程非常简单。

    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <过程version = " 5.3.012 " >
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    http://autopunto.net/" / >
    <列出关键= " crawling_rules " >

    < / >列表





    < /操作符>




    > < /过程
    < /操作符>
    > < /过程

    该网站只有很少的页面,爬虫操作器会找到10个页面,但不会存储它们。

    我附上了日志文件。

    非常感谢你的帮助!

    log.txt 12.5 k
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:909独角兽

    好吧,这似乎是网络爬虫的一个限制。

    最好的猜测是自己解析链接。

    你从爬虫中得到一个页面列表,这些是主要页面。您可以使用从文件中处理文档(文本处理扩展名)和提取信息来处理它们,以获得带有空格的链接url。然后,您可以使用Encode URLs来获得您可以在下一步访问的正确URL。

    问候,

    Balazs

    sgenzer
登录注册置评。