登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.5 k
所有类别
19.6 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
嵌入式爬虫(websphinx)和RegEx
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
嵌入式爬虫(websphinx)和RegEx
tsschmidt
成员
职位:
2
贡献我
2008年11月
2019年5月编辑
在
帮助
(如何)我可以使用RegEx的爬虫?但没有成功……
我尝试了几次,如下(见附件):
visit_content: $ ^水
或
visit_content: \ <水\ >
或
visit_content:(?) \ \ <水>
…
(我不想要瀑布……)
请不要推荐HTTRACK。据我所知,HTTRACK不能过滤页面内容,只能过滤url。
[附件被admin删除]
标记:
网络挖掘
正则表达式
0
答案
土地
RapidMiner认证分析师,RapidMiner认证专家,成员
职位:
2531年
独角兽
2008年11月
你好,
爬虫不支持正则表达式。这是指定要遵循哪个链接的唯一支持的条件类型:
follow_url只有当目标URL包含该参数中的所有条件时,才会跟随该链接。
link_text只有当链接文本中包含该参数中指定的所有条件时,才会出现链接。
说明是否存储页面的条件允许使用以下表达式:
visit_url只有当页面的URL包含此参数中指定的所有条件时,页面才会被存储。
visit_content只有当页面内容包含此参数中所述的所有术语时,页面才会被存储。
更多信息可在
http://nemoz.org/joomla/content/view/64/53/lang,de/
问候,
塞巴斯蒂安。
0
登录
或
注册
置评。
答案
爬虫不支持正则表达式。这是指定要遵循哪个链接的唯一支持的条件类型:
follow_url只有当目标URL包含该参数中的所有条件时,才会跟随该链接。
link_text只有当链接文本中包含该参数中指定的所有条件时,才会出现链接。
说明是否存储页面的条件允许使用以下表达式:
visit_url只有当页面的URL包含此参数中指定的所有条件时,页面才会被存储。
visit_content只有当页面内容包含此参数中所述的所有术语时,页面才会被存储。
更多信息可在http://nemoz.org/joomla/content/view/64/53/lang,de/
问候,
塞巴斯蒂安。