处理来自GET请求的答案时出现问题

David_Bartholomew · 2021年12月

嗨,伙计们,

我想为一篇文章挖掘足球运动员的表现数据。

作为一个来源，我发现了Goaloo1(我还不能发布链接)。问题是它们不提供文件中的信息，所以我想使用Web挖掘扩展代替。

我设法确定了GET请求URL，该URL提供了给定联赛的给定赛季的所有数据(也不能发布)

)。唯一的问题是文档只是一个大字符串(通过一些较小的RegEx替换)，可以转换成多个csv。现在我可以在VSC中手动完成，但我宁愿学会在快速矿工中正确地完成这一切。

首先，我无法让get (REST)操作符工作(我得到一个“访问REST服务错误”):

<？xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">
 
 
 
 < 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 < /operator>

我确实设法通过使用“get Page”操作符来获取文档。根据我在网上收集的信息，我现在需要在一个ExampleSet中使用“Replace”操作符。因此，我需要首先将Document转换为ExampleSet。我找到了两种方法，但都没用。

第一种方法是使用“文档到数据”操作。虽然它确实给了我一个可以使用“替换”操作的ExampleSet，但它削减了原始文档约99%的信息:

<？xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">
 
 
 
 < 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 < < operator activated="true" class="text:documents_to_data"compatibility="9.4.000" expanded="true" height="82" name="Documents to Data" width="90" x="380" y="85">
 
 
 
 
 
 
 
 
 
 
 
 < /operator>

< /process>

我发现的第二种方法是使用Process Documents操作。同样的问题:

<？xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">
 
 
 
 < 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 < operatoractivated="true" class="text:process_documents" compatibility="9.4.000" expanded="true" height="103" name="Process Documents" width="90" x="380" y="85">
 
 
 
 
 
 
 
 
 
 
 
 
 < portSpacing port="sink_document 1" spacing="0"/>
 
 < /operator>
< connect from_op="Read Document" from_port="output" to_op=" process Documents" to_port=" Documents 1"/>
 
 
 
 
 < /process>< /operator>

有人能帮我解决这个问题吗?或者我是否应该采用一种不同的方法来挖掘数据?

我很新的快速矿工，所以请原谅我犯的任何新手错误。

最好的
大卫

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

处理来自GET请求的答案时出现问题