使用RapidMiner抓取JSON内容
我是一名学生,RapidMiner新手,我想从一个发布客户评论的网站上抓取。但我不能得到这个工作在RapidMiner。下面是第一个网页的例子:
RapidMiner可以拾取页面顶部和底部的所有内容,但实际的评论文本和相关属性存储在JSON中,RapidMiner处理只是拒绝拾取。无论我使用“Get Page(s)”还是“Crawl Web”操作符,它都不会抓取页面的那一部分。你以前遇到过这种情况吗?
这个页面似乎需要一个令牌。JSON文件似乎是动态创建的。
如何进行身份验证?
我在哪里可以买到代币?
我把它放在哪里?
如何获取JSON内容?
请,谢谢
下面是一个非常简单的例子:
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.0.003”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= " query_parameters " / >
<列出关键= " request_properties " / >
< /操作符>
<过程扩展= " true " >
> < /过程
< /操作符>
> < /过程
< /操作符>
> < /过程
标记:
0
最佳答案
-
MarcoBarradas 管理员,员工,RapidMiner认证分析师,会员职位:266独角兽我猜JSON是从api中提取的,而不是像我发布的那样正常的www。如果你想从网页上获得它们,你应该通过添加请求属性来实现。
或者你也可以使用web服务。
你可以跟着@sgenzer发布一下如何使用它们
https://community.www.turtlecreekpls.com/discussion/35280/how-to-interact-with-google-cloud-apis-with-the-web-mining-extension
或
https://community.www.turtlecreekpls.com/discussion/comment/41800#Comment_41800
5
答案
https://api.bazaarvoice.com/data/display/0.2alpha/product/summary?PassKey=caMpDRdDUtaeikkWiWN5lpY1kmrXC9rPo1hDbuQ1Ne9d4&productid=2&contentType=reviews,questions&reviewDistribution=primaryRating,recommended&rev=0&contentlocale=en,en_US
你可以检查什么是加载的,而你访问一个网页,使用开发工具在chrome上。
用你的网络浏览器访问,因为我猜当你看到这篇文章的时候,密码已经死了。