处理来自GET请求的答案时出现问题
David_Bartholomew
成员职位:1新手
嗨,伙计们,
我想为一篇文章挖掘足球运动员的表现数据。
作为一个来源,我发现了Goaloo1(我还不能发布链接)。问题是它们不提供文件中的信息,所以我想使用Web挖掘扩展代替。
我设法确定了GET请求URL,该URL提供了给定联赛的给定赛季的所有数据(也不能发布))。唯一的问题是文档只是一个大字符串(通过一些较小的RegEx替换),可以转换成多个csv。现在我可以在VSC中手动完成,但我宁愿学会在快速矿工中正确地完成这一切。
首先,我无法让get (REST)操作符工作(我得到一个“访问REST服务错误”):
<?xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">
<
< /operator>
我确实设法通过使用“get Page”操作符来获取文档。根据我在网上收集的信息,我现在需要在一个ExampleSet中使用“Replace”操作符。因此,我需要首先将Document转换为ExampleSet。我找到了两种方法,但都没用。
第一种方法是使用“文档到数据”操作。虽然它确实给了我一个可以使用“替换”操作的ExampleSet,但它削减了原始文档约99%的信息:
<?xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">
<
< /operator>
<< operator activated="true" class="text:documents_to_data"compatibility="9.4.000" expanded="true" height="82" name="Documents to Data" width="90" x="380" y="85">
< /process>
我发现的第二种方法是使用Process Documents操作。同样的问题:
<?xml version="1.0" encoding="UTF-8"?><进程版本="9.10.001">
<
< /process>< /operator>
< operatoractivated="true" class="text:process_documents" compatibility="9.4.000" expanded="true" height="103" name="Process Documents" width="90" x="380" y="85">
< /operator>
< portSpacing port="sink_document 1" spacing="0"/>
< connect from_op="Read Document" from_port="output" to_op=" process Documents" to_port=" Documents 1"/>
有人能帮我解决这个问题吗?或者我是否应该采用一种不同的方法来挖掘数据?
我很新的快速矿工,所以请原谅我犯的任何新手错误。
最好的
大卫
大卫
0