"抓取带有空格的页面时出现问题"

oju987 · 2017年10月

我已经使用Rapidminer有一段时间了，并且有一些使用网页爬行的经验，没有出现大问题。但有一项新任务让我很困惑。

Url是这样的:

http: \ \www.movilauto.com \丰田rav4 html 2012.

http: \ \www.movilauto.com \宝马320html 2013.

我通常会用。+movilauto。+得到这些页面，它会工作得很好。但显然空间是个问题。

更复杂的是，数字或空格不是固定的，有时像前面的例子一样有2个，有时像下面的例子一样有3个

http: \ \www.movilauto.com \丰田Rav4 automatic 2012.html

有什么建议吗?

BalazsBarany · 2017年10月

嗨！

使用Encode url操作符(在Web挖掘扩展中)来正确传递url。

注意:使用反斜杠代替斜杠也会破坏一切，所以你也应该替换它们。

问候,

Balazs

oju987 · 2017年10月

谢谢Balázs，谢谢你的回答。

我在反斜杠上的错误，我检查了rapidminer操作符，我使用了正确的斜杠，这是我写这篇文章时的打字错误。

我找到了Encode url操作符，但我不确定如何使用它，我的过程非常简单。

<？xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 5.3.012 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

http://autopunto.net/" / >
<列出关键= " crawling_rules " >

< / >列表





< /操作符>




> < /过程
< /操作符>
> < /过程

该网站只有很少的页面，爬虫操作器会找到10个页面，但不会存储它们。

我附上了日志文件。

非常感谢你的帮助!

BalazsBarany · 2017年10月

好吧，这似乎是网络爬虫的一个限制。

最好的猜测是自己解析链接。

你从爬虫中得到一个页面列表，这些是主要页面。您可以使用从文件中处理文档(文本处理扩展名)和提取信息来处理它们，以获得带有空格的链接url。然后，您可以使用Encode URLs来获得您可以在下一步访问的正确URL。

问候,

Balazs

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

"抓取带有空格的页面时出现问题"

答案