文本挖掘:JSON文件的文档聚类

米菲米菲 成员职位:7贡献我
2018年11月编辑 帮助

大家好!

由于我是RapidMiner的新手,我在集群文档方面遇到了很大的困难。

我们的想法是导入大约1350个以JSON格式编写的文档(.txt),将它们转换成一个表(每行代表一个文档),并运行包含性能测量的文档聚类。顺便说一句。文档的内容是来自不同网站的网页内容(英文和德文)。

不幸的是,我没有设法导入这些文件,因此RapidMiner将它们识别为JSON。

有人能帮我吗?我将非常感谢任何帮助!

如果需要的话,我可以寄一些文件给你。

非常感谢!!

最佳答案

  • JEdwardJEdward RapidMiner认证分析师,RapidMiner认证专家,成员职位:578独角兽
    解决方案接受

    我还没有通过你的数据运行,但在你的第一个过程文件操作符,你勾选了参数“仅提取文本”。这将在导入文档时删除文档的所有JSON格式。

    试试下面的布局。这将以一种稍微不同的顺序处理它,首先不加更改地读取所有JSON文档,然后将它们转换为数据。接下来,它将数据转换为文本,并使用文本挖掘操作符对其进行处理。

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >


    <过程扩展= " true " >


    < /操作符>






    > < /过程
    循环遍历文本目录,并将文件作为文档读取,保持不变。在RM 7.4中,它被并行化以利用多个处理器内核。
    < /操作符>



    这里可能需要额外的处理操作符,具体取决于JSON文档格式,但我假设不需要。
    < /操作符>

    <列出关键= " specify_weights " / >
    < /操作符>






    <过程扩展= " true " >




    < /操作符>



    < /操作符>




    < /操作符>
















    > < /过程
    < /操作符>














    > < /过程
    < /操作符>
    > < /过程
    Thomas_Ott

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    您是否使用了JSON to Data操作符?为什么不发布流程的XML和JSON文件,也许有人可以解决问题。

  • 米菲米菲 成员职位:7贡献我
    
                 

    你好托马斯,

    谢谢你的回复。我实际上已经尝试使用JSON数据操作符,但它仍然不会工作。由于我是RapidMiner的新手,尤其是文本挖掘,我确信我错过了一些基本的操作符。

    所以这就是这个过程,我已经将其中一个JSON文件附加为。docx,因为不支持。txt。

    我迫不及待地想要任何建议!

    谢谢你! !

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    <列出关键= " text_directories " >

    < / >列表





    <过程扩展= " true " >




    < /操作符>



    < /操作符>




    < /操作符>
















    > < /过程
    < /操作符>

    <列出关键= " specify_weights " / >
    < /操作符>


    < /操作符>

    <列出关键= " specify_weights " / >
    < /操作符>





    < /操作符>

    <列出关键= " sample_size_per_class " / >
    <列出关键= " sample_ratio_per_class " / >
    <列出关键= " sample_probability_per_class " / >
    < /操作符>












    > < /过程
    < /操作符>
    > < /过程

    jsonfile.docx 15.4 k
  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    你先我一步,杰爱德华兹。我可以确认这适用于示例JSON文件。

  • shannocm01shannocm01 成员职位:1贡献我

    我需要做这件事,但我不明白你写的格式。我在操作标题上下文中没有看到任何内容?我也有困难在rapidminer工作室打开json文件。的帮助!

登录注册置评。