将推文分类为3个不同的类别

Shivani12Shivani12 成员职位:5新手
2020年4月编辑 帮助
我有60个推特数据集存储在不同的excel文件与字段(推文ID,推文文本,没有喜欢,没有。的份额,没有。的Retweet and tweet categories). I have manually trained the 10,000 tweets which is stored in excel file. I want to automatically classify the remaining tweets using RapidMiner but don't know how. I want all the attributes in my output file with category (sports, politics, war) of tweets. Pl explain which operators should be used to classify the text in to categories step by step. I am new to Rapidminer. I watched videos but I am not able to understand anything.
标记:

答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年4月编辑
    试试RapidMiner YouTube文本挖掘教程:
    它很好地介绍了文本分析及其在分类中的应用。也可以获得Vijay Kotu和Bala Deshpande的书,数据科学概念和实践,第二版。乐鱼平台进入第9章是关于文本挖掘的。

  • Shivani12Shivani12 成员职位:5新手
    非常感谢你的回复。我已经看过视频了。视频对我没有帮助。该视频是基于情感分析。但是,我不是在进行情绪分析。我必须将存储在excel文件中的推文分为三个不同的类别(体育、政治和战争)。我的数据集由Tweets ID, Tweets Text, Tweets no of likes, no of Shares和category组成。如果你能分享一些推文被分类成体育、政治、战争等类别的视频,我会很感激。

    如果可能的话,请告诉我一步一步进行此类分析所使用的操作符。我的作业要交了。:( :年代
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年4月编辑
    @Shivani12我不确定是否能找到这些特征的现成视频,但是,我在这里附上了航空公司评论的文本解析和分类(非常简化)。您可以根据自己的数据调整这个示例。这是一个二项分类,但是您有一个多项式标签,因此您需要将性能操作符更改为简单的分类性能。看你怎么走。
    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.6.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文







    <过程扩展= " true " >


    < /操作符>






    <列出关键= " sample_size_per_class " / >
    <列出关键= " sample_ratio_per_class " / >
    <列出关键= " sample_probability_per_class " / >


    < /操作符>




    <列出关键= " filters_list " >

    < / >列表


    < /操作符>













    < /操作符>



    <列出关键= " set_additional_roles " / >
    < /操作符>















    <列出关键= " specify_weights " >

    < / >列表
    <过程扩展= " true " >


    < /操作符>





    < /操作符>


    < /操作符>




    < /操作符>









    > < /过程
    < /操作符>




    < /操作符>







    < /操作符>








    <过程扩展= " true " >

















    < /操作符>





    > < /过程
    <过程扩展= " true " >

    <列出关键= " application_parameters " / >

    < /操作符>


























    < /操作符>











    > < /过程
    < /操作符>

















    > < /过程
    < /操作符>
    > < /过程


    你可以在这里找到这个数据集:https://github.com/quankiquanki/skytrax-reviews-dataset

  • Shivani12Shivani12 成员职位:5新手
    对不起. .我不明白你…你想让我使用编码/Python吗??
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年4月编辑
    @Shivani12这不是Python代码,而是XML格式的RapidMiner文件的内容(是的,它是纯文本),可以复制并放置在xyz中。存储库中的RMP文件。为了避免混淆,我附加了整个RapidMiner进程文件(因此后缀。rmp),确保将其放在磁盘上存储库中的某个文件夹中(如果您右键单击“本地存储库”并选择“配置存储库”,您将看到它在哪里)。祝你好运。

    Shivani12
  • Shivani12Shivani12 成员职位:5新手
    谢谢,我已经尽力了。但这对我不起作用。
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    @Shivani12如果你能解释一下什么地方不起作用,也许我们能帮上忙?
  • Shivani12Shivani12 成员职位:5新手
    我的数据集包括Tweets ID, Tweets text, No。不喜欢。每条推文的每条评论和类别的分享。所有这些推特(大约)。5000)存储在excel中。我想把推文分为体育、政治和战争三类。航空公司分类将不起作用,因为tweet内容是非结构化的。
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    @Shivani12,航空公司分类是一个非常类似的问题,即都有结构化和非结构化(文本)属性,事实上,我给你的例子只使用文本属性。您希望将tweet分为三类,航空公司示例将航空公司评论分为两类。我建议通过Kotu和Deshpande的书来寻找RapidMiner建模的更多模式。
登录注册置评。