抓取网络和链接数据与宏
crazy_m1ner
成员职位:2贡献我
我想从谷歌策略中获得多种语言的数据。
我正在使用爬行网络操作符,指向希腊语言政策。
我将语言设置为标签和过滤,只获得包含策略的url。
所以我结束了一个例子集,有所有url的希腊政策。
我想要实现的是从这些政策中获得所有数据,并将它们放在一个文件中。
我发现“获取页面”操作符完美的为我想要的,但它只是一个url。
“get pages”操作符在utf-8编码方面有问题,给了我错误的输出。
所以我尝试了一个宏循环的例子集我有。
但是我不知道宏是如何工作的,这个过程从来没有编译过。
这是我的xml代码:
< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文.
<过程扩展= " true " >https://policies.google.com/privacy/archive?hl=el&gl=gr" / >
<列出关键= " crawling_rules " / >
< /操作符>
<列出关键= " function_descriptions " >
< / >列表
< /操作符>. .
<列出关键= " set_additional_roles " / >
< /操作符>
<列出关键= " filters_list " >
/> .
<过程扩展= " true " >
<列出关键= " query_parameters " / >
<列出关键= " request_properties " / >
< /操作符>
/> ..
<列出关键= " additional_macros " / >
< /操作符>
/> .
> < /过程
< /操作符>
/> .. . . .
> < /过程
< /操作符>
> < /过程
0
答案
嗨@crazy_m1ner!
下面是您的流程的更新XML。有一些小问题。首先,执行顺序是错误的,所以Get Page操作符在测验创建宏。另外,Get Page的输出连接到了Loop Examples的样例集端口,这又产生了一个错误。现在它起作用了。
干杯
1月
它确实有效
但是html输出代码仍然编码错误
即使当我尝试另一种语言,我仍然得到错误的编码html
我得到了与get pages操作符相同的输出(在编码方面)
嗨@crazy_m1ner,
Get Page操作符有参数“override encoding”。您可以启用它并选择UTF-8,然后您将得到正确的编码。
如果用户频繁使用UTF-8编码,也可以在“设置->首选项->通用->编码”中设置RapidMiner的默认编码为UTF-8。
问候,
塞巴斯蒂安。