在RapidMiner Studio™与Rosette提取实体
它从来没有更容易访问的艺术文本分析状态,无代码。查看我们的Rosette文本工具包扩展RapidMiner -一个流行的开源预测分析平台-并将Rosette文本分析的功能和准确性直接插入到您的RapidMiner工作流程中。
使用Rosette for RapidMiner Studio启动并运行此快速启动指南,其中涵盖了安装和设置过程。我们还将演示如何开始使用Rosette提取和链接实体。
安装RapidMiner和Rosette
如果您还没有运行RapidMiner Studio,请在RapidMiner的网站,然后通过RapidMiner市场下载Rosette Text Toolkit扩展,并注册一个Rosette API密钥。
打开RapidMiner Studio,导航到扩展菜单和选择市场.
将打开一个新窗口。搜索“玫瑰”并选择玫瑰文本工具包从结果列表中。单击安装1包单击窗口底部的按钮,并按照单击说明完成安装。
扩展完成安装后,Rosette操作符将在扩展的文件夹运营商面板。
获取一个Rosette API密钥
为了激活RapidMiner Studio的Rosette文本工具包,您需要一个API密钥和一个Rosette开发人员帐户。前往developer.rosette.com并完成注册过程。
您可以创建一个链接到您的电子邮件或GitHub帐户的帐户。不需要信用卡-我们的默认计划,让您每天10,000个电话免费!如果你想提高你的通话额度,看看我们的付费计划.
一旦您完成了注册过程并验证了您的帐户,单击API密匙选项卡上的菜单栏左上角显示您的密钥。
设置你的Rosette API连接
回到RapidMiner Studio,输入您的Rosette API密钥,开始使用任何Rosette的操作符。我们将在下一节中讨论实体提取操作符,因此现在将使用它来设置Rosette API连接。
首先,定位提取实体的Rosette Text Toolkit文件夹中运营商面板,并将其拖到过程面板。
控件中的“提取实体”操作符的各种设置选项参数面板的右侧过程面板。第一个参数是连接.单击框右侧的Rosette图标。
的管理连接窗户会打开。单击添加连接单击左下角的按钮并选择玫瑰连接从连接类型下拉列表。命名新连接并单击创建按钮。
从左侧的列表中选择新的Rosette API连接,并在API密匙盒子。使用测试按钮在窗口底部,以验证您的连接正在工作。如果遇到任何麻烦,请确认已正确复制API密钥。当您对一切都顺利运行感到满意时,单击保存所有更改按钮返回参数面板。
控件中选择新连接连接下拉列表。
提取实体
现在您已经安装了Rosette for RapidMiner扩展,并设置了API密钥和连接,开始使用Rosette操作符就很容易了。让我们尝试实体提取。我们将使用三个操作符来创建一个简单的实体提取工作流或流程:创建文档,从文档到数据,提取实体.将这些操作符拖到过程面板,并将它们连接在一起,保持上面列出的顺序。方法可以找到操作符操作员搜索栏.
选择创建文档操作符。在参数面板中,选中“添加标签”框。下标签类型,选择文本,输入“my_text”作为标签值。单击编辑文本按钮在面板的顶部,并复制下面的文本到弹出窗口。
“比尔·默里将会出现在新的《捉鬼敢死队》电影中:彼得·文克曼医生被发现在波士顿客串出演……http://dlvr.it/BnsFfS.”
撞到申请更改按钮保存您的工作。
现在选择从文档到数据操作符。在参数面板,在文本属性字段中输入' my_text '。
使用蓝色“执行流程”玩”按钮。结果显示了五个提取的实体。如您所见,Rosette正确地提取了文本中包含的名称和位置。
让我们把输入文本变长一点。将下面的句子添加到参数文本中并重新运行该过程。
“另一位原版捉鬼敢死队成员丹·阿克罗伊德也确认将在电影中客串。”
从结果中我们可以看到,Rosette如预期一样提取了Dan Akroyd的名字。然而,眼尖的读者可能已经注意到了“Akroyd”的拼写错误。(应该是“Aykroyd”)这种情况并不少见。从个人博客到《纽约时报》(New York Times)的网站,名字拼错现象随处可见。如果您试图在大量文档中跟踪某个特定实体,则希望确保识别了该实体名称的所有可能拼写。Rosette自动提取并链接具有拼写变化和其他文本异常的实体,将它们统一为单个条目。
为了演示此功能,让我们启用链接实体在提取实体参数面板。
然后,我们将在参数文本中添加第三行,其中包括Dan Aykroyd名字的正确拼写,如下所示:
“事实上,正确的拼写是Aykroyd。”
当我们再次运行该流程时,结果中会出现一个新的QID列。注意,“Dan Akroyd”和“Aykroyd”具有相同的QID值——Rosette已经正确地将它们标识为相同的实体。
QID值是从Wikidata中提取的,因此如果一个实体有一个Wikidata条目,Rosette应该能够链接并解析它。
qid对于机器阅读非常有用,但对于人类来说,它们可能很难跟踪。让我们打开包含实体名称参数,这将允许我们看到实体名称以及它们的qid。
自己试试
现在,您已经启动了Rosette文本工具包,并与RapidMiner Studio一起运行,您已经准备好了处理大量文本分析任务。将上述结果合并到您现有的数据过程中,并检查我们的其他操作符,包括分类、情感分析、形态分析、标记化、句子标记、名称翻译和名称匹配。
当你这样做的时候,随时通知我们!我们喜欢听到我们的用户在做什么,也很高兴在我们的博客上分享你的Rosette for RapidMiner的故事。
评论
如果我有一个。csv文件中的文章数据集呢?我可以只使用“读取CSV”图标和“提取实体”图标来做一个简单的实体提取吗?