用Multilabel分类预测twitter用户的年龄和性别

fsm_83fsm_83 成员职位:4贡献我
2018年11月编辑 帮助

你好,

我需要预测推特用户的推文的年龄和性别,

我刚收集了300多个已知用户的资料,包括他们的年龄和性别。

并将档案分为4组(20岁以上女性、20岁以下女性、20岁以上男性、20岁以下男性)。

我完成了处理文本(标记,删除停止词,干,替换标记)。

现在如何在Rapidminer中做到这一点?

标记:

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽
  • fsm_83fsm_83 成员职位:4贡献我

    谢谢Thomas_Ott

    这个解决方案似乎是二元正或负,

    但它不适合我的情况,因为我认为首先我必须训练模型来预测性别(男性,女性),然后是年龄(20岁以上,20岁以下),最后的预测应该结合两个标签,如(20岁以上男性,20岁以下男性,20岁以上女性或20岁以下女性)。

  • JEdwardJEdward RapidMiner认证分析师,RapidMiner认证专家,成员职位:578独角兽

    我相信你在学习中已经学过,有些算法只能应用于二元标签,有些只能应用于回归(数字),但你知道许多算法可以处理多个类别吗?例如,kNN算法可以毫不费力地预测标签中的所有4个类别。

    探索…http://mod.www.turtlecreekpls.com/#app并使用它来帮助理解一小部分可用于您的解决方案的算法。

    (因为这是RapidMiner,有很多不同的方法来解决你的问题,但首先让我们从这里开始,因为这是一个非常简单的方法来让你开始)。

    挖掘快乐!

    Thomas_Ott
  • fsm_83fsm_83 成员职位:4贡献我

    我认为首先我们需要预测第一个标签(性别:男性/女性),然后我们可以预测年龄(20岁以上,20岁以下)。

    我试着浏览你的链接,但我不知道过程步骤,

    有人能帮帮我吗?

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    作为@JEdward指出,有几种算法可以处理多标签。我的链接显示了这个过程是如何工作的。

    对于您的示例,我将制作male_under20, male_over20, female_under20和female_over20的标签。这样,标签都在一个属性列中,您可以测试预测并度量分类的性能。假设模型是好的,那么测试(评分)数据集将给出这些标签的置信度。

    您可以构建一个模型,该模型将首先通过交叉验证对性别进行分类,然后将该信息输送到另一个交叉验证。您必须使用Set Role操作符和Select Attribute操作符来删除信心属性并将标签角色更改为常规属性,但这似乎非常复杂。

  • fsm_83fsm_83 成员职位:4贡献我

    谢谢@Thomas_Ott

    我很欣赏这一点,但我如何才能以最佳的准确性和性能为超过184000条推文或300000个令牌应用多标签?你有任何完整的例子来解释在Rapidminer处理MLC吗


    @Thomas_Ott写道:

    作为@JEdward指出,有几种算法可以处理多标签。我的链接显示了这个过程是如何工作的。

    对于您的示例,我将制作male_under20, male_over20, female_under20和female_over20的标签。这样,标签都在一个属性列中,您可以测试预测并度量分类的性能。假设模型是好的,那么测试(评分)数据集将给出这些标签的置信度。

    您可以构建一个模型,该模型将首先通过交叉验证对性别进行分类,然后将该信息输送到另一个交叉验证。您必须使用Set Role操作符和Select Attribute操作符来删除信心属性并将标签角色更改为常规属性,但这似乎非常复杂。


  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    是的,这里有一个使用3个类的进程。

    < ?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文


    <过程扩展= " true " >
登录注册置评。