使用RapidMiner Web挖掘扩展访问维基百科API
这是一篇关于如何使用通过Web服务丰富数据操作符(在Web挖掘扩展中找到)通过他们的REST API Web服务获取关于维基百科的信息的快速文章。这个API可以找到许多不同的信息源,如页面视图、公式抓取、唯一设备计数等。完整的文档可以在这里找到:https://wikimedia.org/api/rest_v1
这个特殊的API非常容易使用-没有身份验证,唯一的限制是每天查询200次。只需输入URL,插入相关属性或宏,并设置JSON路径来组织输出。繁荣。
对象的页数检查的简短过程示例RapidMiner维基百科页面(当然)在流程执行的前一天。
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= " attribute_value " >
< / >列表
<列出关键= " set_additional_roles " / >
< /操作符>. .
< /操作符>.
< /操作符>.
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " / >
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >. . . . . . .
< / >列表https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia.org/all-access/all-agents/RapidMiner/daily/<%startdate%>/<%enddate%>, " / >
<列出关键= " request_properties " / >
< /操作符>
/> .. .
> < /过程
< /操作符>
> < /过程
享受吧!
斯科特
标记:
5
评论
谢谢斯科特. . ! !
: smileyvery-happy:
你好,斯科特,
我正在使用这个API,但不知道如何传递令牌,然后再次访问不同的端点。
请问token和查询参数应该放在哪里?
谢谢。
所以-H curl请求意味着它必须包含在头文件中。通过Webservice操作符来丰富数据,它是在高级参数“request properties”中完成的:
对于那个API,他们似乎会让你在URL中包含令牌,而不是在头文件中。所以在操作符中,你只需要像它说的那样处理URL
同样的区别。
斯科特
谢谢。
我还需要获取一个json响应,这是在另一个页面,认证后
如何使RM在鉴权后使用GET/other_data。
这就是这个操作符的作用:一个GET请求,通常返回一个JSON文件作为响应。如果将查询类型设置为正则表达式,查询表达式设置为。*,则将看到整个响应。
斯科特
身份验证之后的响应是没有用的。我需要GET/posts的响应,其中有我正在寻找的信息。但如果我把标记放在url中,它会在给出初始共鸣(登陆页面)后停止。认证通过后,我需要访问其他页面。我应该如何形成我的url和请求参数,以便我能够验证和移动到其他页面以及。
检查这个bug报告!