看起来你是新来的。登录或注册开始。
我试图在工作室版本7.6.001中使用抓取网络操作员,一旦爬虫开始,我就会在日志中得到以下内容“无法连接到CTA DB”,然后过了一会儿操作就超时了。我不知道发生了什么。这似乎与这些特定的操作符有关,因为我可以毫无问题地使用其他操作符。有人有什么想法吗?
你好@michael_crowdes欢迎来到RapidMiner社区。您可以在这个线程中发布您的XML,以便我们可以看到您的过程吗?请使用>工具。
谢谢。
斯科特
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.001”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " >http://parker.com" / ><列出关键= " crawling_rules " >< / >列表< /操作符>> < /过程< /操作符>> < /过程
嗨,迈克尔,
似乎你有一个错误的regex字段的爬行规则。“*parker.com*”不是一个有效的表达式。你那表情到底是什么意思?捕获包含“parker.com”的所有内容,无论之前或之后的元素是什么?如果是这样,试试这个表达式(不带引号):".*parker.com.*"
答案
你好@michael_crowdes欢迎来到RapidMiner社区。您可以在这个线程中发布您的XML,以便我们可以看到您的过程吗?请使用>工具。
谢谢。
斯科特
嗨,迈克尔,
似乎你有一个错误的regex字段的爬行规则。“*parker.com*”不是一个有效的表达式。你那表情到底是什么意思?捕获包含“parker.com”的所有内容,无论之前或之后的元素是什么?如果是这样,试试这个表达式(不带引号):".*parker.com.*"