抓取网络和链接数据与宏

crazy_m1ner · 2018年6月

我想从谷歌策略中获得多种语言的数据。
我正在使用爬行网络操作符，指向希腊语言政策。
我将语言设置为标签和过滤，只获得包含策略的url。
所以我结束了一个例子集，有所有url的希腊政策。
我想要实现的是从这些政策中获得所有数据，并将它们放在一个文件中。
我发现“获取页面”操作符完美的为我想要的，但它只是一个url。
“get pages”操作符在utf-8编码方面有问题，给了我错误的输出。
所以我尝试了一个宏循环的例子集我有。
但是我不知道宏是如何工作的，这个过程从来没有编译过。
这是我的xml代码:

< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

 .
<过程扩展= " true " >

https://policies.google.com/privacy/archive?hl=el&gl=gr" / >
<列出关键= " crawling_rules " / >
< /操作符>

<列出关键= " function_descriptions " >

< / >列表
< /操作符>

 .
 .
<列出关键= " set_additional_roles " / >
< /操作符>

<列出关键= " filters_list " >
/> . 
<过程扩展= " true " >


<列出关键= " query_parameters " / >
<列出关键= " request_properties " / >
< /操作符>


/> . 

 .


<列出关键= " additional_macros " / >
< /操作符>
/> . 




> < /过程
< /操作符>
/> .  .  .  . 
 .
> < /过程
< /操作符>
> < /过程

jczogalla · 2018年6月

嗨@crazy_m1ner！

下面是您的流程的更新XML。有一些小问题。首先，执行顺序是错误的，所以Get Page操作符在测验创建宏。另外，Get Page的输出连接到了Loop Examples的样例集端口，这又产生了一个错误。现在它起作用了。

< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.001-SNAPSHOT”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
 .
 .
<过程扩展= " true " >

https://policies.google.com/privacy/archive?hl=el&gl=gr" / >
<列出关键= " crawling_rules " / >
< /操作符>

<列出关键= " function_descriptions " >

< / >列表
< /操作符>

 .
 .
<列出关键= " set_additional_roles " / >
< /操作符>

<列出关键= " filters_list " >
/> . 
<过程扩展= " true " >


 .

/> . <列出关键= " additional_macros " / >
< /操作符>


<列出关键= " query_parameters " / >
<列出关键= " request_properties " / >
< /操作符>






> < /过程
< /操作符>
/> .  .  .
 . 
 .
> < /过程
< /操作符>
> < /过程

干杯

1月

crazy_m1ner · 2018年6月

它确实有效
但是html输出代码仍然编码错误
即使当我尝试另一种语言，我仍然得到错误的编码html
我得到了与get pages操作符相同的输出(在编码方面)

SGolbert · 2018年6月

嗨@crazy_m1ner，

Get Page操作符有参数“override encoding”。您可以启用它并选择UTF-8，然后您将得到正确的编码。

如果用户频繁使用UTF-8编码，也可以在“设置->首选项->通用->编码”中设置RapidMiner的默认编码为UTF-8。

问候,

塞巴斯蒂安。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

抓取网络和链接数据与宏

答案