使用RapidMiner Web挖掘扩展访问维基百科API

sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区管理员,成员,大学教授,PM版主职位:2959年社区经理
2020年2月编辑 知识库

这是一篇关于如何使用通过Web服务丰富数据操作符(在Web挖掘扩展中找到)通过他们的REST API Web服务获取关于维基百科的信息的快速文章。这个API可以找到许多不同的信息源,如页面视图、公式抓取、唯一设备计数等。完整的文档可以在这里找到:https://wikimedia.org/api/rest_v1

这个特殊的API非常容易使用-没有身份验证,唯一的限制是每天查询200次。只需输入URL,插入相关属性或宏,并设置JSON路径来组织输出。繁荣。

对象的页数检查的简短过程示例RapidMiner维基百科页面(当然)在流程执行的前一天。

<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.6.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

<列出关键= " attribute_value " >


< / >列表
<列出关键= " set_additional_roles " / >
< /操作符>

.
.
< /操作符>


.
< /操作符>

.
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " / >
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
.
.
.
.
.
.
.
< / >列表
https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia.org/all-access/all-agents/RapidMiner/daily/<%startdate%>/<%enddate%>, " / >
<列出关键= " request_properties " / >
< /操作符>
/> .


.
.
> < /过程
< /操作符>
> < /过程

享受吧!

斯科特

JessForbesRM CraigBostonUSA yyhuang sharmar6 Pavithra_Rao

评论

  • sharmar6sharmar6 成员职位:19Maven

    谢谢斯科特. . ! !

    : smileyvery-happy:

  • sharmar6sharmar6 成员职位:19Maven

    你好,斯科特,

    我正在使用这个API,但不知道如何传递令牌,然后再次访问不同的端点。

    请问token和查询参数应该放在哪里?

    谢谢。

    Capture.JPG

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区管理员,成员,大学教授,PM版主职位:2959年社区经理

    所以-H curl请求意味着它必须包含在头文件中。通过Webservice操作符来丰富数据,它是在高级参数“request properties”中完成的:

    屏幕截图2017-09-21下午7.03.56。png

    对于那个API,他们似乎会让你在URL中包含令牌,而不是在头文件中。所以在操作符中,你只需要像它说的那样处理URL

    屏幕截图2017-09-21下午7.05.49。png

    同样的区别。

    斯科特

  • sharmar6sharmar6 成员职位:19Maven

    谢谢。

    我还需要获取一个json响应,这是在另一个页面,认证后

    如何使RM在鉴权后使用GET/other_data。

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区管理员,成员,大学教授,PM版主职位:2959年社区经理

    这就是这个操作符的作用:一个GET请求,通常返回一个JSON文件作为响应。如果将查询类型设置为正则表达式,查询表达式设置为。*,则将看到整个响应。


    斯科特

  • sharmar6sharmar6 成员职位:19Maven

    身份验证之后的响应是没有用的。我需要GET/posts的响应,其中有我正在寻找的信息。但如果我把标记放在url中,它会在给出初始共鸣(登陆页面)后停止。认证通过后,我需要访问其他页面。我应该如何形成我的url和请求参数,以便我能够验证和移动到其他页面以及。

登录注册置评。