"抓取带有空格的页面时出现问题"
我已经使用Rapidminer有一段时间了,并且有一些使用网页爬行的经验,没有出现大问题。但有一项新任务让我很困惑。
Url是这样的:
http: \ \www.movilauto.com \丰田rav4 html 2012.
http: \ \www.movilauto.com \宝马320html 2013.
我通常会用。+movilauto。+得到这些页面,它会工作得很好。但显然空间是个问题。
更复杂的是,数字或空格不是固定的,有时像前面的例子一样有2个,有时像下面的例子一样有3个
http: \ \www.movilauto.com \丰田Rav4 automatic 2012.html
有什么建议吗?
标记:
0
答案
嗨!
使用Encode url操作符(在Web挖掘扩展中)来正确传递url。
注意:使用反斜杠代替斜杠也会破坏一切,所以你也应该替换它们。
问候,
Balazs
谢谢Balázs,谢谢你的回答。
我在反斜杠上的错误,我检查了rapidminer操作符,我使用了正确的斜杠,这是我写这篇文章时的打字错误。
我找到了Encode url操作符,但我不确定如何使用它,我的过程非常简单。
该网站只有很少的页面,爬虫操作器会找到10个页面,但不会存储它们。
我附上了日志文件。
非常感谢你的帮助!
好吧,这似乎是网络爬虫的一个限制。
最好的猜测是自己解析链接。
你从爬虫中得到一个页面列表,这些是主要页面。您可以使用从文件中处理文档(文本处理扩展名)和提取信息来处理它们,以获得带有空格的链接url。然后,您可以使用Encode URLs来获得您可以在下一步访问的正确URL。
问候,
Balazs