使用OWC的WebAutomation扩展解析JSON:提取标量值数组

Jana_OWCJana_OWC 主持人,成员,KB贡献者职位:14因素二世
你好,

我带着另一个教程回来了,总结了如何使用旧世界计算的WebAutomation扩展在RapidMiner中解析JSON的帖子。我希望你发现教程有用,如果有任何进一步的问题,不要犹豫,问!此外,如果您正在使用我们的任何扩展,并希望看到有关某些功能的教程,请随时在这里给我发消息,或在Twitter或LinkedIn上与我们联系。

在之前的文章中,我们首先讨论了WebAutomation扩展的基本功能,然后演示了如何从一个JSON字符串中提取不仅仅是一个,而是多个关系示例集。如前所述,我们还有一个特性要展示:提取标量值数组。如果你喜欢,你也可以在RapidMiner中打开教程过程,在社区样本库中的合作伙伴材料-旧世界计算中找到它。

我们将继续使用之前的示例数据,让我们首先再看一下JSON:


到目前为止,我们已经讨论了提取属性数组,标题,副标题,语言等等......我们还介绍了如何提取嵌套的信息作者数组中。正如您在上面看到的作者然而,数组是对象的数组。仔细看一下JSON,你会发现还有一个数组还没有处理:关键词。你也会看到关键字-相对于作者-是单个字符串值的数组,而不是嵌套对象的数组。在下文中,我们将演示如何将信息提取到第三个表中。

首先,这里提醒一下Process Array操作符的内部现在应该是什么样子:正如我们之前讨论过的,流程的结构反映了原始的JSON结构。因此,我们将继续在这个层面上努力数组中。


现在,我们将添加另一个Process Array操作符,将其连接到Multiply和右边的第三个Parse Specification端口——记住还要在所有更高的级别上以及Process Object和Parse操作符之间建立新的连接,以便接收您的ExampleSet。



点击新操作符编辑其参数,设置“keywords”为属性名,数组类型选择“scalar values”:


进入操作符,我们将构建一个类似于用于提取作者和其他属性的子流程。唯一的区别是,我们现在将使用WebAutomation扩展提供的Extract Scalar操作符,而不是Extract Properties操作符。输入属性名称- Keywords -并选择正确的属性类型,在本例中为polynominal。不要忘记在子流程中添加Commit Row操作符,以表示每个条目都应该由一行表示:



运行该流程,您现在应该得到三个单独的示例集:一个显示的属性数组,第一个包含作者姓名,第三个包含分配给图书的关键字。的关键字数组进程嵌套在process Object操作符中,您可能还记得在前面的教程中,我们将其设置为为每个JSON对象分配ID。因此,新的第三个ExampleSet也将包含一个与其他ExampleSet相对应的ID,从而使关系结论成为可能。(如果你的数据中已经包含了ID,那就离开在这里阅读如何使用它作为连接元素)。


总结

关于使用新的WebAutomation扩展进行JSON解析的教程到此结束。现在,您应该能够充分利用这个强大的工具,从而大大提高效率。对于扩展的进一步帮助,您还可以在选择扩展的操作符之一时检查在RapidMiner Studio的帮助选项卡中找到的教程。另外,一定要看一下其他有用的函数,比如JSON请求操作符,它直接从web服务获取数据。









MartinLiebig ChristianK sgenzer
    登录注册置评。