自动文本信号查找二进制响应

Noobie · 2019年10月

我有两个数据集:

数据集1 -它有响应变量和一些潜在的分类预测(响应是1或0)。每个实体都有一个唯一的记录(让我们称它们为实体a到Z)

数据集2——它有数千条记录，每个实体都有大量文本。因此，每个实体可以有数千行，每一行都有一段信息

我想根据数据集2中的文本信息预测数据集1中的响应。下面是我认为接下来应该发生的事情:

1)连接数据集2中每个实体的数千行，使结果表为每个实体一行(每条记录具有大量文本信息)。

2)基于实体ID连接数据集1和数据集2

假设以上到目前为止是正确的(请纠正如果更好的方式，因为我还没有这样做)，我想知道是否有一个ML算法可以找到我所有的单词/短语/模糊组合，预测数据集1中的响应变量。请建议!

谢谢!

kayman · 2019年10月

不确定如何定义串联，完全没有问题，具有相同实体的多行，这实际上是模型所期望的。整个想法是，机器被训练来根据这些数据做出有根据的猜测，所以如果你有10行相同的实体，机器需要被训练来理解为什么给出这个实体(或标签)而不是另一个。

典型的方法是使用来自数据操作符的处理文档，将句子分成令牌，去掉所有停止词并创建TF-IDF向量集。一定要修剪足够多的数据，如果你有足够多的数据，你可以设置相当大的边界，但经验一点。

这将为您的记录集提供最有意义的单词，然后您可以使用这个简化的内容集来设置预测模型，其中您的实体将成为您的标签。哪种模型最有效取决于一些变量，但SVM或朴素贝叶斯通常是这类挑战的良好起点。

所有这些都有点枯燥和技术性，但有很多例子，希望它能让你开始。

Noobie · 2019年10月

为了清楚起见，我希望预测与实体相关的1或0的值，而不是实体本身。由于缺乏更好的描述，实体本身就像一个ID。但是，我想这可能不会改变你的反应。

就你所说的分裂而言，这是否允许短语的灵活性?此外，有时一些单词/短语没有按相同的顺序输入或拼写一致;是否有一种方法可以找到大致相同的文本/短语的预测因子?

谢谢你的回复

kayman · 2019年10月

嗨@Noobie对于短语，你可以使用n-gram，或者使用词性配置。例如，后者允许您过滤多个名词，这些名词通常表示一个短语。但是它有点慢，所以不要在大集合中使用它，或者将它移植到python。

至于标签，如果你有两个或更多可能的选择，它并没有什么区别，它只是改变了你可以使用的模型，当你从二元到多标签，但贝叶斯处理多选项也很好。

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

自动文本信号查找二进制响应

答案