文本挖掘:JSON文件的文档聚类
最佳答案
-
JEdward RapidMiner认证分析师,RapidMiner认证专家,成员职位:578独角兽
我还没有通过你的数据运行,但在你的第一个过程文件操作符,你勾选了参数“仅提取文本”。这将在导入文档时删除文档的所有JSON格式。
试试下面的布局。这将以一种稍微不同的顺序处理它,首先不加更改地读取所有JSON文档,然后将它们转换为数据。接下来,它将数据转换为文本,并使用文本挖掘操作符对其进行处理。
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<过程扩展= " true " >
< /操作符>
> < /过程循环遍历文本目录,并将文件作为文档读取,保持不变。在RM 7.4中,它被并行化以利用多个处理器内核。
< /操作符>这里可能需要额外的处理操作符,具体取决于JSON文档格式,但我假设不需要。
< /操作符>
<列出关键= " specify_weights " / >
< /操作符>
<过程扩展= " true " >
< /操作符>
< /操作符>
< /操作符>
> < /过程
< /操作符>
> < /过程
< /操作符>
> < /过程1
答案
您是否使用了JSON to Data操作符?为什么不发布流程的XML和JSON文件,也许有人可以解决问题。
你好托马斯,
谢谢你的回复。我实际上已经尝试使用JSON数据操作符,但它仍然不会工作。由于我是RapidMiner的新手,尤其是文本挖掘,我确信我错过了一些基本的操作符。
所以这就是这个过程,我已经将其中一个JSON文件附加为。docx,因为不支持。txt。
我迫不及待地想要任何建议!
谢谢你! !
你先我一步,杰爱德华兹。我可以确认这适用于示例JSON文件。
我需要做这件事,但我不明白你写的格式。我在操作标题上下文中没有看到任何内容?我也有困难在rapidminer工作室打开json文件。的帮助!