嵌入式爬虫(websphinx)和RegEx

tsschmidt · 2008年11月

(如何)我可以使用RegEx的爬虫?但没有成功……

我尝试了几次，如下(见附件):
visit_content: $ ^水
或
visit_content: \ <水\ >
或
visit_content:(?) \ \ <水>
…

(我不想要瀑布……)

请不要推荐HTTRACK。据我所知，HTTRACK不能过滤页面内容，只能过滤url。

[附件被admin删除]

土地 · 2008年11月

你好,
爬虫不支持正则表达式。这是指定要遵循哪个链接的唯一支持的条件类型:
follow_url只有当目标URL包含该参数中的所有条件时，才会跟随该链接。
link_text只有当链接文本中包含该参数中指定的所有条件时，才会出现链接。

说明是否存储页面的条件允许使用以下表达式:
visit_url只有当页面的URL包含此参数中指定的所有条件时，页面才会被存储。
visit_content只有当页面内容包含此参数中所述的所有术语时，页面才会被存储。

更多信息可在http://nemoz.org/joomla/content/view/64/53/lang,de/

问候,
塞巴斯蒂安。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

嵌入式爬虫(websphinx)和RegEx

答案