索引文本和图像分析

sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
2018年11月编辑 知识库

这是帮助人们在RapidMiner内部使用外部api的几篇文章中的第二篇。在这里,我将展示如何访问Indico api (index .io),这是一个用于文本和图像分析的巨大工具集合:

文本分析:文本输入格式,情感,情感总部,文本标签,语言预测器,政治分析,关键字,人物,地点,组织,Twitter参与,个性,人物角色,文本特征,相关性,情感,交叉点,文本分析和句子分裂

图像分析:图像输入格式、面部情绪识别、图像特征、面部特征、面部定位、内容过滤、图像识别、图像分析

我将在下面展示一个文本分析API(文本标签)和一个图像分析API(面部情感识别)的示例,您应该能够轻松地适应其他任何一个。完整的API文档在这里:https://indico.io/docs

索引文本标签

在这里,我将展示如何使用Indico。io API“文本标签”获取文本并提取文本包含111个可能主题(标签)中的一个或多个的可能性。你当然可以把它改成任何你想要的。然后,我添加了一个简短的RapidMiner过程,将其减少到前三个标签。

1.您需要创建一个免费的Indico帐户来获取API密钥。你可以在https://indico.io/密钥应该看起来像一长串字母数字字符。保持此密钥的安全性,因为这是Indico验证和分配账单的方式。截至2016年12月,Indico的“随用随付”账户每月允许多达10,000次免费API调用。在此之后,每次通话收费为0.006美元,直至250,000次通话,以此类推(参见https://indico.io/dashboard/plans有关定价的更多信息)。

2.如果你还没有这样做,下载Web挖掘扩展在RapidMiner工作室。

3.构建一个进程,通过Webservice操作符(在Web Mining扩展中找到)将文本属性(称为“text”)发送到充实数据,然后连接到结果。如果您想使用我的过程作为起点(您需要插入自己的API密钥),我已经包含了下面的示例过程。

4.这里唯一困难的部分(也是API之间唯一的变化)是如何设置“通过Webservice充实数据”操作符。这是非常类似于谷歌云API设置(见之前的帖子),但有以下变化:

查询类型:JSON路径

属性类型:数值

JSONpath查询:

动漫. .美元动漫

人类学人类学美元. .

等等……

如果你想要全部的话,有111个标签。如果您从示例过程中获取XML,则可以节省大量手工输入的工作。

请求方法:POST

身体:{“数据”:“< % % >文本"}

URL:https://apiv2.indico.io/texttags

就是这样。结果应该是这样的:

截屏2016-12-29上午11.20.58 .png

Indico图像面部情感识别

在这里,我将展示如何使用Indico。io API“面部情绪识别”,拍摄一张包含人脸的图像,并提取图像包含六种可能情绪中的一种或多种的可能性:快乐、悲伤、愤怒、恐惧、惊讶、中性。你当然可以把它改成任何你想要的。

1.您将需要创建一个免费的Indico帐户,以获得API密钥,并获得Web挖掘扩展(见上文)。

2.构建一个将图像URL文本属性(称为“URL”)发送给Webservice操作符的进程。

3.通过Webservice充实数据的参数:

查询类型:JSON路径

属性类型:数值

JSONpath查询:

快乐美元. .快乐

悲伤的美元…悲伤

美元生气愤怒. .

恐惧美元. .

令人惊讶的是美元。

中性美元. .中性

请求方法:POST

身体:{“数据”:“< % URL % > "}

URL:https://apiv2.indico.io/fer

就是这样。如果你使用这张图片(https://pbs.twimg.com/profile_images/796243884636512260 / zHVoWqKV.jpg),您应该看到以下结果:

截屏2016-12-29 11.42.18 AM.png

< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000-BETA”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >

<过程扩展= " true " >


< /操作符>



< /操作符>


<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " / >
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >




< / >列表


<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >
https://apiv2.indico.io/political" / >
<列出关键= " request_properties " >

< / >列表
< /操作符>



< /操作符>

<过程扩展= " true " >

<列出关键= " attribute_name " >
<参数键="概率"值="[A-Z].*"/>
< / >列表


< /操作符>



< /操作符>



< /操作符>








> < /过程
选择最大概率
< /操作符>








> < /过程
政治
< /操作符>

<过程扩展= " true " >


< /操作符>



< /操作符>


<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >

< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >




< / >列表


<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >
https://apiv2.indico.io/language" / >
<列出关键= " request_properties " >

< / >列表
< /操作符>



< /操作符>

<过程扩展= " true " >

<列出关键= " attribute_name " >
<参数键="概率"值="[A-Z].*"/>
< / >列表


< /操作符>



< /操作符>



< /操作符>








> < /过程
选择最大概率
< /操作符>








> < /过程
语言检测
< /操作符>

<过程扩展= " true " >


< /操作符>



< /操作符>


<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >

< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >

< / >列表


<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >
https://apiv2.indico.io/sentiment" / >
<列出关键= " request_properties " >

< / >列表
< /操作符>




< /操作符>

<列出关键= " function_descriptions " >

< / >列表
情感感受
< /操作符>








> < /过程
情感感受
< /操作符>

<过程扩展= " true " >


< /操作符>



< /操作符>


<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >

< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >

< / >列表


<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >
https://apiv2.indico.io/sentimenthq" / >
<列出关键= " request_properties " >

< / >列表
< /操作符>




< /操作符>

<列出关键= " function_descriptions " >

< / >列表
情感感受
< /操作符>








> < /过程
情感高质量
< /操作符>

<过程扩展= " true " >


< /操作符>



< /操作符>


<列出关键= " string_machting_queries " / >

<列出关键= " regular_expression_queries " / >
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
























































Telcontar120 Thomas_Ott Pavithra_Rao

评论

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    @sgenzer,很棒的文章!这看起来很有帮助,我想尝试一下,并正在寻找参考的示例过程,但我找不到它。它是附在这篇文章里的吗,还是我应该在别处找到它?

    还有索引的链接。上面的IO实际上似乎指向cloud.google.com。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • 781194025781194025 成员职位:32贡献我

    我试图使用这个,图像,但我得到“无法连接到https://”。我在尝试调用Azure时遇到了同样的错误!!

    1. 我没有改变任何东西,除了把一个列表的图像url到'创建文档',并添加了我的API密钥。
    2. 我对调用内置进程(如Aylien API)没有任何问题。

    到底是怎么回事?什么好主意吗?

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    我不认为这个过程是为Azure设计的,所以它可能需要修改,而不仅仅是添加一个URL。与Create Document操作符不同,它不是用来加载图像的,而是用来加载txt、pdf、xml和html文件的。

登录注册置评。