使用RapidMiner抓取JSON内容

B00100719B00100719 成员职位:11因素二世
2018年12月编辑 帮助

我是一名学生,RapidMiner新手,我想从一个发布客户评论的网站上抓取。但我不能得到这个工作在RapidMiner。下面是第一个网页的例子:


https://www.unum.com/employees/benefits/disability-insurance/long-term-disability-insurance?bvstate=pg:1/ct:r


RapidMiner可以拾取页面顶部和底部的所有内容,但实际的评论文本和相关属性存储在JSON中,RapidMiner处理只是拒绝拾取。无论我使用“Get Page(s)”还是“Crawl Web”操作符,它都不会抓取页面的那一部分。你以前遇到过这种情况吗?


这个页面似乎需要一个令牌。JSON文件似乎是动态创建的。


如何进行身份验证?

我在哪里可以买到代币?

我把它放在哪里?

如何获取JSON内容?


请,谢谢


下面是一个非常简单的例子:


<?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.0.003”>

> <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文

<过程扩展= " true " >

https://www.unum.com/employees/benefits/disability-insurance/long-term-disability-insurance?bvstate=pg:1/ct:r#" / >

<列出关键= " query_parameters " / >

<列出关键= " request_properties " / >

< /操作符>

<过程扩展= " true " >

> < /过程

< /操作符>

> < /过程

< /操作符>

> < /过程


标记:

最佳答案

答案

登录注册置评。