看起来你是新来的。登录或注册开始。
大家好.....
我需要帮助或回答是否有可能从推特上提取表情符号,我从受欢迎的标签中选择了它,如果是,我需要tpis请。
谢谢
到处交叉张贴不会让你更快得到答案。
我将删除其他主题。
您需要在Preferences下将编码设置为适当的类型。例如,UTF-8将提取大量的表情符号短代码,即。":) " for:smileyhappy:
但我不需要具体的代码,我正试图检查在推特中使用的表情符号,所以我期望所有种类的表情符号,这样我应该添加所有的表情符号的unicode ??
如果你想进行文本处理并提取表情符号和标签,你必须将它们转换成不会在标记化过程中被破坏的东西。例如,笑脸符号通常表示为“:)”(为了清晰起见,添加了空格和引号)。如果您使用默认的标记化设置,则该设置将被删除,并且您将无法从中提取信息。
我通常做的是使用一些替换操作符将“:)”替换为“smiley_face”,将“#myawesomehashtag”替换为“hashtag_myawesomehastag”。然后,当您对其进行标记时,它仍将保留在文本处理中。
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.3.001”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " >< /操作符>< /操作符>< /操作符>> < /过程< /操作符>> < /过程
你好!假设我有一个包含'comment'属性的大型示例集,并且该属性原始数据(.xlsx)看起来像这样:
我想要的结果是一个集合,其中的例子是唯一的表情符号,以及该表情符号出现的次数,就像在集合中所有例子的'comment'属性中找到的那样,类似于:
✨- 1
❤️- 5
吗?- 5
吗?- 1
吗?1
这是我(非常确定)知道如何在RapidMiner中执行的一些其他处理的数据准备步骤。请注意,我需要看到用户为我的用例输入的实际表情符号。
我已经尝试了很多Google-fu和RapidMiner的试错(以及更多的错误),但都被难住了。这里有什么可以指导新手的想法吗?谢谢您的考虑。
你好@gjagiello-欢迎来到社区。我喜欢这种ETL柔术。在这种情况下,我经常使用的技巧是将文本转换为UTF-8十六进制,替换为可识别的东西,如@Thomas_Ott建议,并转换回来。例如,如果你看一下你的心形表情符号,它会使用“Encode URL”转换为“%E2%9D%A4%EF%B8%8F”(查看Encode URL断点后的数据)。然后我使用Replace将其转换为正常的内容,然后查找单词的出现情况。如果你有很多表情符号,你可以使用替换字典。
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.0.000”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " ><列出关键= "注释" / ><列出关键= " data_set_meta_data_information " >< / >列表< /操作符><过程扩展= " true " >< /操作符>红心< /操作符>蓝心< /操作符> < /操作符>心面< /操作符>火焰< /操作符>群星< /操作符>< /操作符>> < /过程将表情符号转换为unicode,然后再转换为[xx]符号< /操作符><列出关键= " specify_weights " / ><过程扩展= " true " >< /操作符>> < /过程< /操作符>> < /过程< /操作符>> < /过程
谢谢你的款待。我喜欢这些东西。
斯科特
[编辑:哦,抱歉-如果你只想要一个表情符号出现的列表,而不是所有的令牌,你可以简单地过滤它们。]
斯科特,谢谢你的回复和伟大的建议!我要试一试,然后回来报告……你给了我一个想法,如果我能让它奏效,我会分享给你。很高兴你喜欢这次数据大战!
答案
到处交叉张贴不会让你更快得到答案。
我将删除其他主题。
您需要在Preferences下将编码设置为适当的类型。例如,UTF-8将提取大量的表情符号短代码,即。":) " for:smileyhappy:
但我不需要具体的代码,我正试图检查在推特中使用的表情符号,所以我期望所有种类的表情符号,这样我应该添加所有的表情符号的unicode ??
谢谢
如果你想进行文本处理并提取表情符号和标签,你必须将它们转换成不会在标记化过程中被破坏的东西。例如,笑脸符号通常表示为“:)”(为了清晰起见,添加了空格和引号)。如果您使用默认的标记化设置,则该设置将被删除,并且您将无法从中提取信息。
我通常做的是使用一些替换操作符将“:)”替换为“smiley_face”,将“#myawesomehashtag”替换为“hashtag_myawesomehastag”。然后,当您对其进行标记时,它仍将保留在文本处理中。
你好!假设我有一个包含'comment'属性的大型示例集,并且该属性原始数据(.xlsx)看起来像这样:
我想要的结果是一个集合,其中的例子是唯一的表情符号,以及该表情符号出现的次数,就像在集合中所有例子的'comment'属性中找到的那样,类似于:
✨- 1
❤️- 5
吗?- 5
吗?- 1
吗?- 1
吗?1
这是我(非常确定)知道如何在RapidMiner中执行的一些其他处理的数据准备步骤。请注意,我需要看到用户为我的用例输入的实际表情符号。
我已经尝试了很多Google-fu和RapidMiner的试错(以及更多的错误),但都被难住了。这里有什么可以指导新手的想法吗?谢谢您的考虑。
你好@gjagiello-欢迎来到社区。我喜欢这种ETL柔术。在这种情况下,我经常使用的技巧是将文本转换为UTF-8十六进制,替换为可识别的东西,如@Thomas_Ott建议,并转换回来。例如,如果你看一下你的心形表情符号,它会使用“Encode URL”转换为“%E2%9D%A4%EF%B8%8F”(查看Encode URL断点后的数据)。然后我使用Replace将其转换为正常的内容,然后查找单词的出现情况。如果你有很多表情符号,你可以使用替换字典。
谢谢你的款待。我喜欢这些东西。
斯科特
[编辑:哦,抱歉-如果你只想要一个表情符号出现的列表,而不是所有的令牌,你可以简单地过滤它们。]
斯科特,谢谢你的回复和伟大的建议!我要试一试,然后回来报告……你给了我一个想法,如果我能让它奏效,我会分享给你。很高兴你喜欢这次数据大战!