抓取网络和链接数据与宏

crazy_m1nercrazy_m1ner 成员职位:2贡献我
2019年11月编辑 帮助

我想从谷歌策略中获得多种语言的数据。
我正在使用爬行网络操作符,指向希腊语言政策。
我将语言设置为标签和过滤,只获得包含策略的url。
所以我结束了一个例子集,有所有url的希腊政策。
我想要实现的是从这些政策中获得所有数据,并将它们放在一个文件中。
我发现“获取页面”操作符完美的为我想要的,但它只是一个url。
“get pages”操作符在utf-8编码方面有问题,给了我错误的输出。
所以我尝试了一个宏循环的例子集我有。
但是我不知道宏是如何工作的,这个过程从来没有编译过。
这是我的xml代码:

< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

.
<过程扩展= " true " >

https://policies.google.com/privacy/archive?hl=el&gl=gr" / >
<列出关键= " crawling_rules " / >
< /操作符>

<列出关键= " function_descriptions " >

< / >列表
< /操作符>

.
.
<列出关键= " set_additional_roles " / >
< /操作符>

<列出关键= " filters_list " >
/> .
<过程扩展= " true " >


<列出关键= " query_parameters " / >
<列出关键= " request_properties " / >
< /操作符>


/> .

.


<列出关键= " additional_macros " / >
< /操作符>
/> .




> < /过程
< /操作符>
/> . . . .
.
> < /过程
< /操作符>
> < /过程

答案

  • jczogallajczogalla 员工,成员职位:144RM工程

    @crazy_m1ner

    下面是您的流程的更新XML。有一些小问题。首先,执行顺序是错误的,所以Get Page操作符在测验创建宏。另外,Get Page的输出连接到了Loop Examples的样例集端口,这又产生了一个错误。现在它起作用了。:)

    < ?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.001-SNAPSHOT”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文
    .
    .
    <过程扩展= " true " >

    https://policies.google.com/privacy/archive?hl=el&gl=gr" / >
    <列出关键= " crawling_rules " / >
    < /操作符>

    <列出关键= " function_descriptions " >

    < / >列表
    < /操作符>

    .
    .
    <列出关键= " set_additional_roles " / >
    < /操作符>

    <列出关键= " filters_list " >
    /> .
    <过程扩展= " true " >


    .

    /> . <列出关键= " additional_macros " / >
    < /操作符>


    <列出关键= " query_parameters " / >
    <列出关键= " request_properties " / >
    < /操作符>






    > < /过程
    < /操作符>
    /> . . .
    .
    .
    > < /过程
    < /操作符>
    > < /过程

    干杯

    1月

    sgenzer
  • crazy_m1nercrazy_m1ner 成员职位:2贡献我

    它确实有效
    但是html输出代码仍然编码错误
    即使当我尝试另一种语言,我仍然得到错误的编码html
    我得到了与get pages操作符相同的输出(在编码方面)

  • SGolbertSGolbert RapidMiner认证分析师,会员职位:344独角兽

    @crazy_m1ner

    Get Page操作符有参数“override encoding”。您可以启用它并选择UTF-8,然后您将得到正确的编码。

    如果用户频繁使用UTF-8编码,也可以在“设置->首选项->通用->编码”中设置RapidMiner的默认编码为UTF-8。

    问候,

    塞巴斯蒂安。

    jczogalla
登录注册置评。