“使用网络爬虫获取CTA数据库错误信息-帮助!”

michael_crowdes · 2017年9月

我试图在工作室版本7.6.001中使用抓取网络操作员，一旦爬虫开始，我就会在日志中得到以下内容“无法连接到CTA DB”，然后过了一会儿操作就超时了。我不知道发生了什么。这似乎与这些特定的操作符有关，因为我可以毫无问题地使用其他操作符。有人有什么想法吗?

sgenzer · 2017年9月

你好@michael_crowdes欢迎来到RapidMiner社区。您可以在这个线程中发布您的XML，以便我们可以看到您的过程吗?请使用工具。

谢谢。

斯科特

michael_crowdes · 2017年10月

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

http://parker.com" / >
<列出关键= " crawling_rules " >

< / >列表






< /操作符>




> < /过程
< /操作符>
> < /过程

炉膛温度 · 2017年10月

嗨,迈克尔,

似乎你有一个错误的regex字段的爬行规则。“*parker.com*”不是一个有效的表达式。你那表情到底是什么意思?捕获包含“parker.com”的所有内容，无论之前或之后的元素是什么?如果是这样，试试这个表达式(不带引号):".*parker.com.*"

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

“使用网络爬虫获取CTA数据库错误信息-帮助!”

答案