提取实体与玫瑰在RapidMiner工作室
查看我们的Rosette文本工具包扩展为RapidMiner,并将Rosette文本分析直接插入到您的RapidMiner工作流程。更多信息:https://www.rosette.com/
跟随这个快速入门指南,使用Rosette for RapidMiner Studio开始运行,其中包括安装和设置过程。我们还将演示如何开始使用Rosette提取和链接实体。
安装RapidMiner和Rosette
如果您还没有运行RapidMiner Studio,请在RapidMiner的网站,下载Rosette Text Toolkit扩展,打开RapidMiner Studio,导航到扩展菜单和选择市场.
将打开一个新窗口。搜索“玫瑰”并选择玫瑰文本工具包从结果列表中。单击安装1包单击窗口底部的按钮,并按照单击说明完成安装。
扩展完成安装后,Rosette操作符将在扩展的文件夹运营商面板。
获取一个Rosette API密钥
为了激活RapidMiner Studio的Rosette文本工具包,您需要一个API密钥和一个Rosette开发人员帐户。前往developer.rosette.com并完成注册过程。
您可以创建一个链接到您的电子邮件或GitHub帐户的帐户。不需要信用卡-我们的默认计划,让您每天10,000个电话免费!如果你想提高你的通话额度,看看我们的付费计划。
一旦您完成了注册过程并验证了您的帐户,单击API密匙选项卡上的菜单栏左上角显示您的密钥。
设置你的Rosette API连接
回到RapidMiner Studio,输入您的Rosette API密钥,开始使用任何Rosette的操作符。我们将在下一节中讨论实体提取操作符,因此现在将使用它来设置Rosette API连接。
首先,定位提取实体的Rosette Text Toolkit文件夹中运营商面板,并将其拖到过程面板。
控件中的“提取实体”操作符的各种设置选项参数面板的右侧过程面板。第一个参数是连接.单击框右侧的Rosette图标。
的管理连接窗户会打开。单击添加连接单击左下角的按钮并选择玫瑰连接从连接类型下拉列表。命名新连接并单击创建按钮。
从左侧的列表中选择新的Rosette API连接,并在API密匙盒子。使用测试按钮在窗口底部,以验证您的连接正在工作。如果遇到任何麻烦,请确认已正确复制API密钥。当您对一切都顺利运行感到满意时,单击保存所有更改按钮返回参数面板。
控件中选择新连接连接下拉列表。
提取实体
现在您已经安装了Rosette for RapidMiner扩展,并设置了API密钥和连接,现在几乎可以开始分析了。最后一步:下载RapidMiner的文本处理扩展在RapidMiner市场中,一组有用的操作符,允许您加载、过滤和分析来自各种不同来源的文本。安装完成后,转到RapidMiner Studio,在那里我们将使用三个操作符创建一个简单的实体提取工作流或过程:创建文档而且从文档到数据从文本处理,和提取实体从玫瑰。将这些操作符拖到过程面板,并将它们连接在一起,保持上面列出的顺序。方法可以找到操作符操作员搜索栏.
选择创建文档操作符。在参数面板中,选中“添加标签”框。下标签类型,选择文本,输入“my_text”作为标签值。单击编辑文本按钮在面板的顶部,并复制下面的文本到弹出窗口。
“比尔·默里将会出现在新的《捉鬼敢死队》电影中:彼得·文克曼医生被发现在波士顿客串出演……http://dlvr.it/BnsFfS.”
撞到申请更改按钮保存您的工作。
现在选择从文档到数据操作符。在参数面板,在文本属性字段中输入' my_text '。
使用蓝色“执行流程”玩”按钮。结果显示了五个提取的实体。如您所见,Rosette正确地提取了文本中包含的名称和位置。
让我们把输入文本变长一点。将下面的句子添加到参数文本中并重新运行该过程。
“另一位原版捉鬼敢死队成员丹·阿克罗伊德也确认将在电影中客串。”
从结果中我们可以看到,Rosette如预期一样提取了Dan Akroyd的名字。然而,眼尖的读者可能已经注意到了“Akroyd”的拼写错误。(应该是“Aykroyd”)这种情况并不少见。从个人博客到《纽约时报》(New York Times)的网站,名字拼错现象随处可见。如果您试图在大量文档中跟踪某个特定实体,则希望确保识别了该实体名称的所有可能拼写。Rosette自动提取并链接具有拼写变化和其他文本异常的实体,将它们统一为单个条目。
为了演示此功能,让我们启用链接实体在提取实体参数面板。
然后,我们将在参数文本中添加第三行,其中包括Dan Aykroyd名字的正确拼写,如下所示:
“事实上,正确的拼写是Aykroyd。”
当我们再次运行该流程时,结果中会出现一个新的QID列。注意,“Dan Akroyd”和“Aykroyd”具有相同的QID值——Rosette已经正确地将它们标识为相同的实体。
QID值是从Wikidata中提取的,因此如果一个实体有一个Wikidata条目,Rosette应该能够链接并解析它。
qid对于机器阅读非常有用,但对于人类来说,它们可能很难跟踪。让我们打开包含实体名称参数,这将允许我们看到实体名称以及它们的qid。
自己试试
现在,您已经启动了Rosette文本工具包,并与RapidMiner Studio一起运行,您已经准备好了处理大量文本分析任务。将上述结果合并到您现有的数据过程中,并检查我们的其他操作符,包括分类,情绪分析,形态分析,标记,句子标记,名字翻译,名字匹配.
当你这样做的时候,随时通知我们!我们喜欢听到我们的用户在做什么,也很高兴在我们的博客和RapidMiner社区分享你的Rosette for RapidMiner故事。
评论
你好:我找不到创建文档,从文档到数据,在我的操作,我使用7.3版本。
帮助! !
你好,
你有文本挖掘扩展安装?去扩展>市场,并搜索文本挖掘。然后安装。
你好
有人能指导我做这个任务吗?
问题:k=3和k=5在k折交叉验证中的精度,并使用ID3决策树设置数据
谢谢
嗨pedramahmadi,
你的问题可能在其他地方会有更好的运气。它与上面描述的实体提取过程无关。
祝你好运,
来自罗赛特的汉娜
你好,我正在尝试导入一个Excel文件到Rapidminer。但是,这个Excel文件有混合数据格式。例如,给定的列可能包含一些仅为数值的单元格,而其他一些单元格则是纯文本。当我导入它显示一个错误“无法从文本文件获取数值”我应该如何解决这个问题?
嗨amenaakhterchy
您在其他地方可能会有更好的运气回答这个问题,因为它不属于实体提取指南。我只是做了一个快速搜索,看起来有一些有用的回应关于Excel文件中混合数据格式的问题非常相似.
祝你好运,
来自罗赛特的汉娜
你好,我第一次尝试Rapidminer和Rosette,遵循本教程,我已经被困在第一行。
我得到:无法创建元属性
我按照完全相同的步骤正确注册了API密钥,你能帮助我吗?
嗨fabio_pertel
我相信你遇到的问题可能是由我们最近发布的Rosette API 1.7的错误引起的,我们的RapidMiner扩展依赖于它。我们今天下午刚刚发布了一个补丁,你能再试一次,看看是否能得到结果吗?如果没有,请发邮件给我们(电子邮件保护).
非常感谢,
汉娜
你好,
我刚刚开始使用RM进行文本分析。结构化数据的工作一切都很顺利,但我正在努力分析文本文档。您能否简要介绍一下如何从PDF或Word文档中提取实体?
我搜索了这些论坛和谷歌和唯一的解决方案,似乎是工作的文件转换成txt文件。这并不理想。任何帮助都将不胜感激。
嗨泰,
谢谢你的问题!Rosette使用原始文本文件,但RapidMiner可以很容易地准备处理不是.txt格式的文本。
我们建议使用RapidMiner的“文本处理”扩展。只需使用“Read Document”操作符(将PDF作为输入),然后使用“Documents to Data”操作符。
愿一切都好!
汉娜