从微博中提取表情符号

c1579481 · 2017年3月

从twitter上的推文中提取表情符号

大家好.....

我需要帮助或回答是否有可能从推特上提取表情符号，我从受欢迎的标签中选择了它，如果是，我需要tpis请。

谢谢

Thomas_Ott · 2017年3月

到处交叉张贴不会让你更快得到答案。

我将删除其他主题。

Thomas_Ott · 2017年3月

您需要在Preferences下将编码设置为适当的类型。例如，UTF-8将提取大量的表情符号短代码，即。":) " for:smileyhappy:

c1579481 · 2017年3月

但我不需要具体的代码，我正试图检查在推特中使用的表情符号，所以我期望所有种类的表情符号，这样我应该添加所有的表情符号的unicode ??

谢谢

Thomas_Ott · 2017年3月

如果你想进行文本处理并提取表情符号和标签，你必须将它们转换成不会在标记化过程中被破坏的东西。例如，笑脸符号通常表示为“:)”(为了清晰起见，添加了空格和引号)。如果您使用默认的标记化设置，则该设置将被删除，并且您将无法从中提取信息。

我通常做的是使用一些替换操作符将“:)”替换为“smiley_face”，将“#myawesomehashtag”替换为“hashtag_myawesomehastag”。然后，当您对其进行标记时，它仍将保留在文本处理中。

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 7.3.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >




< /操作符>





< /操作符>





< /操作符>






> < /过程
< /操作符>
> < /过程

gjagiello · 2017年12月

你好!假设我有一个包含'comment'属性的大型示例集，并且该属性原始数据(.xlsx)看起来像这样:

生活是伟大的✨

女孩之夜❤️❤️❤️❤️

？???

我们这些坏蛋??

朋友有麻烦了所以我去照顾她爱我的儿子?

晚安❤️

我想要的结果是一个集合，其中的例子是唯一的表情符号，以及该表情符号出现的次数，就像在集合中所有例子的'comment'属性中找到的那样，类似于:

✨- 1

❤️- 5

吗?- 5

吗?- 1

吗?1

这是我(非常确定)知道如何在RapidMiner中执行的一些其他处理的数据准备步骤。请注意，我需要看到用户为我的用例输入的实际表情符号。

我已经尝试了很多Google-fu和RapidMiner的试错(以及更多的错误)，但都被难住了。这里有什么可以指导新手的想法吗?谢谢您的考虑。

sgenzer · 2017年12月

你好@gjagiello-欢迎来到社区。我喜欢这种ETL柔术。在这种情况下，我经常使用的技巧是将文本转换为UTF-8十六进制，替换为可识别的东西，如@Thomas_Ott建议，并转换回来。例如，如果你看一下你的心形表情符号，它会使用“Encode URL”转换为“%E2%9D%A4%EF%B8%8F”(查看Encode URL断点后的数据)。然后我使用Replace将其转换为正常的内容，然后查找单词的出现情况。如果你有很多表情符号，你可以使用替换字典。

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 8.0.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >




<列出关键= "注释" / >

<列出关键= " data_set_meta_data_information " >

< / >列表
< /操作符>

<过程扩展= " true " >


< /操作符>





红心
< /操作符>





蓝心
< /操作符>





 
< /操作符>





心面
< /操作符>





火焰
< /操作符>





群星
< /操作符>


< /操作符>













> < /过程
将表情符号转换为unicode，然后再转换为[xx]符号
< /操作符>




<列出关键= " specify_weights " / >
<过程扩展= " true " >



< /操作符>





> < /过程
< /操作符>







> < /过程
< /操作符>
> < /过程

谢谢你的款待。我喜欢这些东西。

斯科特

[编辑:哦，抱歉-如果你只想要一个表情符号出现的列表，而不是所有的令牌，你可以简单地过滤它们。]

gjagiello · 2017年12月

斯科特，谢谢你的回复和伟大的建议!我要试一试，然后回来报告……你给了我一个想法，如果我能让它奏效，我会分享给你。很高兴你喜欢这次数据大战!

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

从微博中提取表情符号

从twitter上的推文中提取表情符号

答案