自动文本信号查找二进制响应
我有两个数据集:
数据集1 -它有响应变量和一些潜在的分类预测(响应是1或0)。每个实体都有一个唯一的记录(让我们称它们为实体a到Z)
数据集2——它有数千条记录,每个实体都有大量文本。因此,每个实体可以有数千行,每一行都有一段信息
我想根据数据集2中的文本信息预测数据集1中的响应。下面是我认为接下来应该发生的事情:
1)连接数据集2中每个实体的数千行,使结果表为每个实体一行(每条记录具有大量文本信息)。
2)基于实体ID连接数据集1和数据集2
假设以上到目前为止是正确的(请纠正如果更好的方式,因为我还没有这样做),我想知道是否有一个ML算法可以找到我所有的单词/短语/模糊组合,预测数据集1中的响应变量。请建议!
谢谢!
数据集1 -它有响应变量和一些潜在的分类预测(响应是1或0)。每个实体都有一个唯一的记录(让我们称它们为实体a到Z)
数据集2——它有数千条记录,每个实体都有大量文本。因此,每个实体可以有数千行,每一行都有一段信息
我想根据数据集2中的文本信息预测数据集1中的响应。下面是我认为接下来应该发生的事情:
1)连接数据集2中每个实体的数千行,使结果表为每个实体一行(每条记录具有大量文本信息)。
2)基于实体ID连接数据集1和数据集2
假设以上到目前为止是正确的(请纠正如果更好的方式,因为我还没有这样做),我想知道是否有一个ML算法可以找到我所有的单词/短语/模糊组合,预测数据集1中的响应变量。请建议!
谢谢!
标记:
1
答案
典型的方法是使用来自数据操作符的处理文档,将句子分成令牌,去掉所有停止词并创建TF-IDF向量集。一定要修剪足够多的数据,如果你有足够多的数据,你可以设置相当大的边界,但经验一点。
这将为您的记录集提供最有意义的单词,然后您可以使用这个简化的内容集来设置预测模型,其中您的实体将成为您的标签。哪种模型最有效取决于一些变量,但SVM或朴素贝叶斯通常是这类挑战的良好起点。
所有这些都有点枯燥和技术性,但有很多例子,希望它能让你开始。
就你所说的分裂而言,这是否允许短语的灵活性?此外,有时一些单词/短语没有按相同的顺序输入或拼写一致;是否有一种方法可以找到大致相同的文本/短语的预测因子?
谢谢你的回复
至于标签,如果你有两个或更多可能的选择,它并没有什么区别,它只是改变了你可以使用的模型,当你从二元到多标签,但贝叶斯处理多选项也很好。