从微博中提取表情符号

c1579481c1579481 成员职位:2贡献我
2018年11月编辑 帮助

从twitter上的推文中提取表情符号



大家好.....

我需要帮助或回答是否有可能从推特上提取表情符号,我从受欢迎的标签中选择了它,如果是,我需要tpis请。

谢谢


标记:

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    到处交叉张贴不会让你更快得到答案。

    我将删除其他主题。

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    您需要在Preferences下将编码设置为适当的类型。例如,UTF-8将提取大量的表情符号短代码,即。":) " for:smileyhappy:

  • c1579481c1579481 成员职位:2贡献我

    但我不需要具体的代码,我正试图检查在推特中使用的表情符号,所以我期望所有种类的表情符号,这样我应该添加所有的表情符号的unicode ??

    谢谢

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    如果你想进行文本处理并提取表情符号和标签,你必须将它们转换成不会在标记化过程中被破坏的东西。例如,笑脸符号通常表示为“:)”(为了清晰起见,添加了空格和引号)。如果您使用默认的标记化设置,则该设置将被删除,并且您将无法从中提取信息。

    我通常做的是使用一些替换操作符将“:)”替换为“smiley_face”,将“#myawesomehashtag”替换为“hashtag_myawesomehastag”。然后,当您对其进行标记时,它仍将保留在文本处理中。

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.3.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >
  • gjagiellogjagiello 成员职位:2贡献我

    你好!假设我有一个包含'comment'属性的大型示例集,并且该属性原始数据(.xlsx)看起来像这样:

    生活是伟大的✨
    女孩之夜❤️❤️❤️❤️
    ????
    我们这些坏蛋??
    朋友有麻烦了所以我去照顾她爱我的儿子?
    晚安❤️

    我想要的结果是一个集合,其中的例子是唯一的表情符号,以及该表情符号出现的次数,就像在集合中所有例子的'comment'属性中找到的那样,类似于:

    ✨- 1

    ❤️- 5

    吗?- 5

    吗?- 1

    吗?- 1

    吗?1

    这是我(非常确定)知道如何在RapidMiner中执行的一些其他处理的数据准备步骤。请注意,我需要看到用户为我的用例输入的实际表情符号。

    我已经尝试了很多Google-fu和RapidMiner的试错(以及更多的错误),但都被难住了。这里有什么可以指导新手的想法吗?谢谢您的考虑。

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    你好@gjagiello-欢迎来到社区。我喜欢这种ETL柔术。:)在这种情况下,我经常使用的技巧是将文本转换为UTF-8十六进制,替换为可识别的东西,如@Thomas_Ott建议,并转换回来。例如,如果你看一下你的心形表情符号,它会使用“Encode URL”转换为“%E2%9D%A4%EF%B8%8F”(查看Encode URL断点后的数据)。然后我使用Replace将其转换为正常的内容,然后查找单词的出现情况。如果你有很多表情符号,你可以使用替换字典。

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.0.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >




    <列出关键= "注释" / >

    <列出关键= " data_set_meta_data_information " >

    < / >列表
    < /操作符>

    <过程扩展= " true " >


    < /操作符>





    红心
    < /操作符>





    蓝心
    < /操作符>






    < /操作符>





    心面
    < /操作符>





    火焰
    < /操作符>





    群星
    < /操作符>


    < /操作符>













    > < /过程
    将表情符号转换为unicode,然后再转换为[xx]符号
    < /操作符>




    <列出关键= " specify_weights " / >
    <过程扩展= " true " >



    < /操作符>





    > < /过程
    < /操作符>







    > < /过程
    < /操作符>
    > < /过程

    谢谢你的款待。我喜欢这些东西。


    斯科特

    [编辑:哦,抱歉-如果你只想要一个表情符号出现的列表,而不是所有的令牌,你可以简单地过滤它们。]

    Edin_Klapic
  • gjagiellogjagiello 成员职位:2贡献我

    斯科特,谢谢你的回复和伟大的建议!我要试一试,然后回来报告……你给了我一个想法,如果我能让它奏效,我会分享给你。很高兴你喜欢这次数据大战!: D

登录注册置评。