使用OWC的WebAutomation扩展解析JSON:提取标量值数组

Jana_OWC · 2019年11月

你好,

我带着另一个教程回来了，总结了如何使用旧世界计算的WebAutomation扩展在RapidMiner中解析JSON的帖子。我希望你发现教程有用，如果有任何进一步的问题，不要犹豫，问!此外，如果您正在使用我们的任何扩展，并希望看到有关某些功能的教程，请随时在这里给我发消息，或在Twitter或LinkedIn上与我们联系。

在之前的文章中，我们首先讨论了WebAutomation扩展的基本功能，然后演示了如何从一个JSON字符串中提取不仅仅是一个，而是多个关系示例集。如前所述，我们还有一个特性要展示:提取标量值数组。如果你喜欢，你也可以在RapidMiner中打开教程过程，在社区样本库中的合作伙伴材料-旧世界计算中找到它。

我们将继续使用之前的示例数据，让我们首先再看一下JSON:

Image: https://oldworldcomputing.com/content/uploads/2018/12/img_5c110d461fc8f.png

到目前为止，我们已经讨论了提取属性书数组,标题，副标题，语言等等......我们还介绍了如何提取嵌套的信息作者数组中。正如您在上面看到的书和作者然而，数组是对象的数组。仔细看一下JSON，你会发现还有一个数组还没有处理:关键词。你也会看到关键字-相对于作者-是单个字符串值的数组，而不是嵌套对象的数组。在下文中，我们将演示如何将信息提取到第三个表中。

首先，这里提醒一下Process Array操作符的内部现在应该是什么样子:正如我们之前讨论过的，流程的结构反映了原始的JSON结构。因此，我们将继续在这个层面上努力书数组中。

现在，我们将添加另一个Process Array操作符，将其连接到Multiply和右边的第三个Parse Specification端口——记住还要在所有更高的级别上以及Process Object和Parse操作符之间建立新的连接，以便接收您的ExampleSet。

Image: https://us.v-cdn.net/6030995/uploads/editor/iz/pmdxcvjctomn.png

点击新操作符编辑其参数，设置“keywords”为属性名，数组类型选择“scalar values”:

Image: https://us.v-cdn.net/6030995/uploads/editor/4r/r77cyo9uxnaw.png

进入操作符，我们将构建一个类似于用于提取作者和其他属性的子流程。唯一的区别是，我们现在将使用WebAutomation扩展提供的Extract Scalar操作符，而不是Extract Properties操作符。输入属性名称- Keywords -并选择正确的属性类型，在本例中为polynominal。不要忘记在子流程中添加Commit Row操作符，以表示每个条目都应该由一行表示:

Image: https://us.v-cdn.net/6030995/uploads/editor/ns/d1tfqm1b0gr0.png

运行该流程，您现在应该得到三个单独的示例集:一个显示的属性书数组，第一个包含作者姓名，第三个包含分配给图书的关键字。的关键字数组进程嵌套在process Object操作符中，您可能还记得在前面的教程中，我们将其设置为为每个JSON对象分配ID。因此，新的第三个ExampleSet也将包含一个与其他ExampleSet相对应的ID，从而使关系结论成为可能。(如果你的数据中已经包含了ID，那就离开在这里阅读如何使用它作为连接元素)。

Image: https://us.v-cdn.net/6030995/uploads/editor/a5/w5m2pf1nt00z.png

总结

关于使用新的WebAutomation扩展进行JSON解析的教程到此结束。现在，您应该能够充分利用这个强大的工具，从而大大提高效率。对于扩展的进一步帮助，您还可以在选择扩展的操作符之一时检查在RapidMiner Studio的帮助选项卡中找到的教程。另外，一定要看一下其他有用的函数，比如JSON请求操作符，它直接从web服务获取数据。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

使用OWC的WebAutomation扩展解析JSON:提取标量值数组

总结