自动文本信号查找二进制响应

NoobieNoobie 成员职位:2贡献我
2019年10月编辑 帮助
我有两个数据集:

数据集1 -它有响应变量和一些潜在的分类预测(响应是1或0)。每个实体都有一个唯一的记录(让我们称它们为实体a到Z)

数据集2——它有数千条记录,每个实体都有大量文本。因此,每个实体可以有数千行,每一行都有一段信息

我想根据数据集2中的文本信息预测数据集1中的响应。下面是我认为接下来应该发生的事情:

1)连接数据集2中每个实体的数千行,使结果表为每个实体一行(每条记录具有大量文本信息)。

2)基于实体ID连接数据集1和数据集2

假设以上到目前为止是正确的(请纠正如果更好的方式,因为我还没有这样做),我想知道是否有一个ML算法可以找到我所有的单词/短语/模糊组合,预测数据集1中的响应变量。请建议!

谢谢!

Tghadially

答案

  • kaymankayman 成员职位:662独角兽
    不确定如何定义串联,完全没有问题,具有相同实体的多行,这实际上是模型所期望的。整个想法是,机器被训练来根据这些数据做出有根据的猜测,所以如果你有10行相同的实体,机器需要被训练来理解为什么给出这个实体(或标签)而不是另一个。

    典型的方法是使用来自数据操作符的处理文档,将句子分成令牌,去掉所有停止词并创建TF-IDF向量集。一定要修剪足够多的数据,如果你有足够多的数据,你可以设置相当大的边界,但经验一点。

    这将为您的记录集提供最有意义的单词,然后您可以使用这个简化的内容集来设置预测模型,其中您的实体将成为您的标签。哪种模型最有效取决于一些变量,但SVM或朴素贝叶斯通常是这类挑战的良好起点。

    所有这些都有点枯燥和技术性,但有很多例子,希望它能让你开始。
  • NoobieNoobie 成员职位:2贡献我
    为了清楚起见,我希望预测与实体相关的1或0的值,而不是实体本身。由于缺乏更好的描述,实体本身就像一个ID。但是,我想这可能不会改变你的反应。

    就你所说的分裂而言,这是否允许短语的灵活性?此外,有时一些单词/短语没有按相同的顺序输入或拼写一致;是否有一种方法可以找到大致相同的文本/短语的预测因子?

    谢谢你的回复
  • kaymankayman 成员职位:662独角兽
    2019年10月编辑
    @Noobie对于短语,你可以使用n-gram,或者使用词性配置。例如,后者允许您过滤多个名词,这些名词通常表示一个短语。但是它有点慢,所以不要在大集合中使用它,或者将它移植到python。

    至于标签,如果你有两个或更多可能的选择,它并没有什么区别,它只是改变了你可以使用的模型,当你从二元到多标签,但贝叶斯处理多选项也很好。
    Tghadially
登录注册置评。