Word2Vec同义词检测

MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3350年RM数据科学家
2019年6月编辑 知识库

介绍了Word2Vec扩展到RapidMiner市场!

我们最近在我们的市场上发布了一个新的扩展:一种用于文本挖掘的高级算法Word2Vec.核心操作符被调用Word2Vec可以被认为是学习者。在接下来的文章中,我将简要地解释其中的基本原理Word2Vec如何以及如何在你的RapidMiner文本挖掘过程中使用它。

是什么Word2Vec

文本挖掘的关键问题之一是单词之间的距离很难定义。人们也可以说:“无论如何,单靠文字是很难计算数学的。”例如,像beautiful和gorgeous这样的单词,它们的意思相似,但拼写却非常不同。算法怎么知道“beautiful”和“gorgeous”的意思是一样的呢?或者它们有相似的内涵,但有不同的含义?

Word2Vec是一个词向量算法,试图解决这个问题。正如标题所暗示的,这个运算符取一个单词并将其转换为一个向量。那么Word2Vec有什么特别之处呢?最酷的地方在于这个新Word2Vec向量可以与单词的“意思”联系在一起.例如:

1.让我们从原始文本中选取一个句子:RapidMiner有一个名为Word2Vec的新扩展

2.现在让我们“窗口化”我们的句子,总是把中间的单词省略掉:

RapidMiner有___新的扩展

有一个___extension叫做

新扩展___ Word2Vec

3.Word2Vec定义一个概率P对于缺少的单词,取决于周围的单词.事实上,Word2Vec为每个单词分配了一个向量。整个把戏Word2Vec它优化了所有的向量条目,使正确的空白词的概率最大化,并使其他空白词的概率最小化。这样它就为每个单词分配了一个向量。

样本过程Word2Vec

有多种方法可以使用Word2Vec作为数据科学过程的有用补充。乐鱼平台进入在这个示例过程中,我们将从TripAdvisor评论数据(可用)创建一个自定义词干字典在这里).所有描述的过程都附在这篇文章中。

我们的分析分为三个部分。第一部分读入数据并将其转换为文档集合。每个文档都已经标记了。第二个进程将创建一个Word2Vec最后的第三个模型是生成词干字典。

第一步:阅读和标记化

每个酒店的数据在一个平面文件中提供,结构如下:

<综合评分> 4
< Avg。价格> 302美元
< URL >http://www.tripadvisor.com/ShowUserReviews-g60878-d100504-r22932337-Hotel_Monaco_Seattle_a_Kimpton_Hotel-Seattle_Washington.html

< >作者selizabethm
<内容>美好的时光-即使有雪!多么棒的经历啊!从房间里的金鱼(我女儿很喜欢)到代客停车的工作人员为我戴上链子,这真是太棒了。工作人员很细心,竭尽全力使我们在这里过得很愉快。哦,关于停车:收费是你在任何车库或停车场支付的费用-我敢打赌他们不会在雪地里帮你!
<日期> 2008年12月23日
<没有。读者> 1
<没有。帮助> 1
整体> < 5
< >价值4
<房间> 5
<位置> 5
<清洁> 5
<入住/前台>
<服务> 5
<业务服务> 1

我们使用循环文件+读取文档组合读取所有文件,然后使用Cut Document操作符循环所有文档以仅提取内容。在剪切文档中,我们快速地将所有标记转换为小写并标记化我们的文档。将集合压缩为一个直接的文档集合后,我们将其存储在存储库中以供以后使用。

grafik.png读入过程

第二步:训练模型

训练一个Word2Vec模型很简单:获取数据,应用Word2Vec,并存储结果。图层大小(定义一个向量的长度)设置为适中的100,窗口大小设置为7。迭代参数被设置为一个较大的50,这将确保收敛。grafik.png培训过程

步骤3:构建词干字典

构建最终的字典需要少量的后期处理。新的操作符Extract Vocabulary能够为所用语料库的全部或部分提取向量。使用交叉距离,可以得到在余弦相似测量词向量之间的距离。

在后处理中,我们首先需要删除在交叉距离中创建的重复单词。

之后是另一种类型的副本。这些是第一个例子中的第一个单词等于第二个例子中的第二个单词,反之亦然。

Word1 Word2

华丽的美丽

美丽的漂亮的

grafik.png带有创建词干字典的后处理的最终处理过程

最后,我们在相似度上应用一个阈值来生成一个修剪良好的列表。这是由宏控制的,因此也可以从外部使用。我们需要确定的唯一一件事是,一个词不会不止一次成为同义词。我们可以通过去除一些额外的重复项来做到这一点。

让我们看看结果吧!grafik.png找到同义词的例子,如果你检查结果,你可以看到一些明显的相似之处,如而且,还有一些更聪明的同义词,比如而且客人在任何地方而且的某个地方

有趣的是,有时具有相反含义的单词被认为是同义词(最好的-最糟糕的温暖的-很酷的等等)。这是由于方式Word2Vec这些词可以放在相同的空隙中,因此被认为彼此相似。根据你所做的任务,这可能是有用的(例如主题识别),也可能是有害的(例如情绪分析)。对于后者,您需要手动遍历结果列表并删除更多内容。

作为最后一步,我们可以将Aggregate操作符与Generate Attributes操作符结合使用来生成正则表达式。例如:

令人惊叹:太棒了

美国:欧洲

阿姆斯特丹:柏林

和:|

另:以后

在任何地方:某个地方

任命:维护

区域面积:

到达:检查|到来

问:要求|问

该格式可用于您拥有的任何文档。这个操作符被称为“使用示例集的Stem令牌”,是操作符工具箱扩展的一部分。

我在哪里可以了解更多?

- RapidMin乐鱼平台进入er数据科学服务主管-
德国多特蒙德
DocMusher sgenzer hmhsing pschlunder

答案

  • abol3zabol3z 成员职位:5贡献我

    我等这一刻已经很久了。

    我认为下一步应该是Doc2Vec。

    7 jk7
登录注册置评。