文本挖掘:JSON文件的文档聚类

米菲 · 2017年3月

大家好！

由于我是RapidMiner的新手，我在集群文档方面遇到了很大的困难。

我们的想法是导入大约1350个以JSON格式编写的文档(.txt)，将它们转换成一个表(每行代表一个文档)，并运行包含性能测量的文档聚类。顺便说一句。文档的内容是来自不同网站的网页内容(英文和德文)。

不幸的是，我没有设法导入这些文件，因此RapidMiner将它们识别为JSON。

有人能帮我吗?我将非常感谢任何帮助!

如果需要的话，我可以寄一些文件给你。

非常感谢!!

JEdward · 2017年3月

我还没有通过你的数据运行，但在你的第一个过程文件操作符，你勾选了参数“仅提取文本”。这将在导入文档时删除文档的所有JSON格式。

试试下面的布局。这将以一种稍微不同的顺序处理它，首先不加更改地读取所有JSON文档，然后将它们转换为数据。接下来，它将数据转换为文本，并使用文本挖掘操作符对其进行处理。

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >


<过程扩展= " true " >


< /操作符>






> < /过程
循环遍历文本目录，并将文件作为文档读取，保持不变。在RM 7.4中，它被并行化以利用多个处理器内核。
< /操作符>



这里可能需要额外的处理操作符，具体取决于JSON文档格式，但我假设不需要。
< /操作符>

<列出关键= " specify_weights " / >
< /操作符>






<过程扩展= " true " >




< /操作符>



< /操作符>




< /操作符>
















> < /过程
< /操作符>














> < /过程
< /操作符>
> < /过程

Thomas_Ott · 2017年3月

您是否使用了JSON to Data操作符?为什么不发布流程的XML和JSON文件，也许有人可以解决问题。

米菲 · 2017年3月

你好托马斯,

谢谢你的回复。我实际上已经尝试使用JSON数据操作符，但它仍然不会工作。由于我是RapidMiner的新手，尤其是文本挖掘，我确信我错过了一些基本的操作符。

所以这就是这个过程，我已经将其中一个JSON文件附加为。docx，因为不支持。txt。

我迫不及待地想要任何建议!

谢谢你! !

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

<列出关键= " text_directories " >

< / >列表





<过程扩展= " true " >




< /操作符>



< /操作符>




< /操作符>
















> < /过程
< /操作符>

<列出关键= " specify_weights " / >
< /操作符>


< /操作符>

<列出关键= " specify_weights " / >
< /操作符>





< /操作符>

<列出关键= " sample_size_per_class " / >
<列出关键= " sample_ratio_per_class " / >
<列出关键= " sample_probability_per_class " / >
< /操作符>












> < /过程
< /操作符>
> < /过程

Thomas_Ott · 2017年3月

你先我一步，杰爱德华兹。我可以确认这适用于示例JSON文件。

shannocm01 · 2018年7月

我需要做这件事，但我不明白你写的格式。我在操作标题上下文中没有看到任何内容?我也有困难在rapidminer工作室打开json文件。的帮助!

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

文本挖掘:JSON文件的文档聚类

最佳答案

答案