处理来自GET请求的答案时出现问题

David_BartholomewDavid_Bartholomew 成员职位:1新手
2021年12月编辑 帮助
嗨,伙计们,
我想为一篇文章挖掘足球运动员的表现数据。

作为一个来源,我发现了Goaloo1(我还不能发布链接)。问题是它们不提供文件中的信息,所以我想使用Web挖掘扩展代替。

我设法确定了GET请求URL,该URL提供了给定联赛的给定赛季的所有数据(也不能发布)中性:)。唯一的问题是文档只是一个大字符串(通过一些较小的RegEx替换),可以转换成多个csv。现在我可以在VSC中手动完成,但我宁愿学会在快速矿工中正确地完成这一切。

首先,我无法让get (REST)操作符工作(我得到一个“访问REST服务错误”):
<?xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">



<


























< /operator>


我确实设法通过使用“get Page”操作符来获取文档。根据我在网上收集的信息,我现在需要在一个ExampleSet中使用“Replace”操作符。因此,我需要首先将Document转换为ExampleSet。我找到了两种方法,但都没用。

第一种方法是使用“文档到数据”操作。虽然它确实给了我一个可以使用“替换”操作的ExampleSet,但它削减了原始文档约99%的信息:
<?xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">



<




















< < operator activated="true" class="text:documents_to_data"compatibility="9.4.000" expanded="true" height="82" name="Documents to Data" width="90" x="380" y="85">











< /operator>

< /process>

我发现的第二种方法是使用Process Documents操作。同样的问题:
<?xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">



<














< operatoractivated="true" class="text:process_documents" compatibility="9.4.000" expanded="true" height="103" name="Process Documents" width="90" x="380" y="85">












< portSpacing port="sink_document 1" spacing="0"/>

< /operator>
< connect from_op="Read Document" from_port="output" to_op=" process Documents" to_port=" Documents 1"/>




< /process>< /operator>


有人能帮我解决这个问题吗?或者我是否应该采用一种不同的方法来挖掘数据?

我很新的快速矿工,所以请原谅我犯的任何新手错误。


最好的
大卫
    登录注册置评。