看起来你是新来的。登录或注册开始。
你好,
我需要预测推特用户的推文的年龄和性别,
我刚收集了300多个已知用户的资料,包括他们的年龄和性别。
并将档案分为4组(20岁以上女性、20岁以下女性、20岁以上男性、20岁以下男性)。
我完成了处理文本(标记,删除停止词,干,替换标记)。
现在如何在Rapidminer中做到这一点?
您看过这篇知识库文章了吗?http://community.www.turtlecreekpls.com/t5/Text-Analytics-in-RapidMiner/Sentiment-Analysis-as-a-supervised-learning-problem/ta-p/31827
谢谢Thomas_Ott
这个解决方案似乎是二元正或负,
但它不适合我的情况,因为我认为首先我必须训练模型来预测性别(男性,女性),然后是年龄(20岁以上,20岁以下),最后的预测应该结合两个标签,如(20岁以上男性,20岁以下男性,20岁以上女性或20岁以下女性)。
我相信你在学习中已经学过,有些算法只能应用于二元标签,有些只能应用于回归(数字),但你知道许多算法可以处理多个类别吗?例如,kNN算法可以毫不费力地预测标签中的所有4个类别。
探索…http://mod.www.turtlecreekpls.com/#app并使用它来帮助理解一小部分可用于您的解决方案的算法。
(因为这是RapidMiner,有很多不同的方法来解决你的问题,但首先让我们从这里开始,因为这是一个非常简单的方法来让你开始)。
挖掘快乐!
我认为首先我们需要预测第一个标签(性别:男性/女性),然后我们可以预测年龄(20岁以上,20岁以下)。
我试着浏览你的链接,但我不知道过程步骤,
有人能帮帮我吗?
作为@JEdward指出,有几种算法可以处理多标签。我的链接显示了这个过程是如何工作的。
对于您的示例,我将制作male_under20, male_over20, female_under20和female_over20的标签。这样,标签都在一个属性列中,您可以测试预测并度量分类的性能。假设模型是好的,那么测试(评分)数据集将给出这些标签的置信度。
您可以构建一个模型,该模型将首先通过交叉验证对性别进行分类,然后将该信息输送到另一个交叉验证。您必须使用Set Role操作符和Select Attribute操作符来删除信心属性并将标签角色更改为常规属性,但这似乎非常复杂。
谢谢@Thomas_Ott,
我很欣赏这一点,但我如何才能以最佳的准确性和性能为超过184000条推文或300000个令牌应用多标签?你有任何完整的例子来解释在Rapidminer处理MLC吗
@Thomas_Ott写道:作为@JEdward指出,有几种算法可以处理多标签。我的链接显示了这个过程是如何工作的。 对于您的示例,我将制作male_under20, male_over20, female_under20和female_over20的标签。这样,标签都在一个属性列中,您可以测试预测并度量分类的性能。假设模型是好的,那么测试(评分)数据集将给出这些标签的置信度。 您可以构建一个模型,该模型将首先通过交叉验证对性别进行分类,然后将该信息输送到另一个交叉验证。您必须使用Set Role操作符和Select Attribute操作符来删除信心属性并将标签角色更改为常规属性,但这似乎非常复杂。
是的,这里有一个使用3个类的进程。
< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>> <上下文<输入/ ><输出/ ><宏/ >> < /上下文<过程扩展= " true " >< /操作符>< /操作符>< /操作符><列出关键= " specify_weights " / ><过程扩展= " true " >< /操作符><参数键=“字符”值 =" .:;#!(){}[]/"/>< /操作符>> < /过程< /操作符>< /操作符><列出关键= " set_additional_roles " / >< /操作符><过程扩展= " true " ><枚举关键= " hidden_layer_sizes " >< /枚举><枚举关键= " hidden_dropout_ratios " / ><列出关键= " expert_parameters " / ><列出关键= " expert_parameters_ " / >< /操作符>在训练阶段,在当前训练数据集上建立模型。(默认90%的数据,10次)> < /过程<过程扩展= " true " ><列出关键= " application_parameters " / >< /操作符>将在Training步骤中创建的模型应用于当前测试集(10%)。<br/>对性能进行评估并发送给操作员结果。> < /过程< /操作符>> < /过程< /操作符>> < /过程
答案
您看过这篇知识库文章了吗?http://community.www.turtlecreekpls.com/t5/Text-Analytics-in-RapidMiner/Sentiment-Analysis-as-a-supervised-learning-problem/ta-p/31827
谢谢Thomas_Ott
这个解决方案似乎是二元正或负,
但它不适合我的情况,因为我认为首先我必须训练模型来预测性别(男性,女性),然后是年龄(20岁以上,20岁以下),最后的预测应该结合两个标签,如(20岁以上男性,20岁以下男性,20岁以上女性或20岁以下女性)。
我相信你在学习中已经学过,有些算法只能应用于二元标签,有些只能应用于回归(数字),但你知道许多算法可以处理多个类别吗?例如,kNN算法可以毫不费力地预测标签中的所有4个类别。
探索…http://mod.www.turtlecreekpls.com/#app并使用它来帮助理解一小部分可用于您的解决方案的算法。
(因为这是RapidMiner,有很多不同的方法来解决你的问题,但首先让我们从这里开始,因为这是一个非常简单的方法来让你开始)。
挖掘快乐!
我认为首先我们需要预测第一个标签(性别:男性/女性),然后我们可以预测年龄(20岁以上,20岁以下)。
我试着浏览你的链接,但我不知道过程步骤,
有人能帮帮我吗?
作为@JEdward指出,有几种算法可以处理多标签。我的链接显示了这个过程是如何工作的。
对于您的示例,我将制作male_under20, male_over20, female_under20和female_over20的标签。这样,标签都在一个属性列中,您可以测试预测并度量分类的性能。假设模型是好的,那么测试(评分)数据集将给出这些标签的置信度。
您可以构建一个模型,该模型将首先通过交叉验证对性别进行分类,然后将该信息输送到另一个交叉验证。您必须使用Set Role操作符和Select Attribute操作符来删除信心属性并将标签角色更改为常规属性,但这似乎非常复杂。
谢谢@Thomas_Ott,
我很欣赏这一点,但我如何才能以最佳的准确性和性能为超过184000条推文或300000个令牌应用多标签?你有任何完整的例子来解释在Rapidminer处理MLC吗
是的,这里有一个使用3个类的进程。