“使用网络爬虫获取CTA数据库错误信息-帮助!”

michael_crowdesmichael_crowdes 成员职位:2贡献我
2019年6月编辑 帮助

我试图在工作室版本7.6.001中使用抓取网络操作员,一旦爬虫开始,我就会在日志中得到以下内容“无法连接到CTA DB”,然后过了一会儿操作就超时了。我不知道发生了什么。这似乎与这些特定的操作符有关,因为我可以毫无问题地使用其他操作符。有人有什么想法吗?

答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    你好@michael_crowdes欢迎来到RapidMiner社区。您可以在这个线程中发布您的XML,以便我们可以看到您的过程吗?请使用工具。

    谢谢。


    斯科特

  • michael_crowdesmichael_crowdes 成员职位:2贡献我
    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    http://parker.com" / >
    <列出关键= " crawling_rules " >

    < / >列表






    < /操作符>




    > < /过程
    < /操作符>
    > < /过程
  • 炉膛温度炉膛温度 成员职位:106独角兽

    嗨,迈克尔,

    似乎你有一个错误的regex字段的爬行规则。“*parker.com*”不是一个有效的表达式。你那表情到底是什么意思?捕获包含“parker.com”的所有内容,无论之前或之后的元素是什么?如果是这样,试试这个表达式(不带引号):".*parker.com.*"

    sgenzer
登录注册置评。