嵌入式爬虫(websphinx)和RegEx

tsschmidttsschmidt 成员职位:2贡献我
2019年5月编辑 帮助
(如何)我可以使用RegEx的爬虫?但没有成功……

我尝试了几次,如下(见附件):
visit_content: $ ^水

visit_content: \ <水\ >

visit_content:(?) \ \ <水>


(我不想要瀑布……)

请不要推荐HTTRACK。据我所知,HTTRACK不能过滤页面内容,只能过滤url。

[附件被admin删除]

答案

  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    你好,
    爬虫不支持正则表达式。这是指定要遵循哪个链接的唯一支持的条件类型:
    follow_url只有当目标URL包含该参数中的所有条件时,才会跟随该链接。
    link_text只有当链接文本中包含该参数中指定的所有条件时,才会出现链接。

    说明是否存储页面的条件允许使用以下表达式:
    visit_url只有当页面的URL包含此参数中指定的所有条件时,页面才会被存储。
    visit_content只有当页面内容包含此参数中所述的所有术语时,页面才会被存储。

    更多信息可在http://nemoz.org/joomla/content/view/64/53/lang,de/

    问候,
    塞巴斯蒂安。
登录注册置评。