索引文本和图像分析
这是帮助人们在RapidMiner内部使用外部api的几篇文章中的第二篇。在这里,我将展示如何访问Indico api (index .io),这是一个用于文本和图像分析的巨大工具集合:
文本分析:文本输入格式,情感,情感总部,文本标签,语言预测器,政治分析,关键字,人物,地点,组织,Twitter参与,个性,人物角色,文本特征,相关性,情感,交叉点,文本分析和句子分裂
图像分析:图像输入格式、面部情绪识别、图像特征、面部特征、面部定位、内容过滤、图像识别、图像分析
我将在下面展示一个文本分析API(文本标签)和一个图像分析API(面部情感识别)的示例,您应该能够轻松地适应其他任何一个。完整的API文档在这里:https://indico.io/docs
索引文本标签
在这里,我将展示如何使用Indico。io API“文本标签”获取文本并提取文本包含111个可能主题(标签)中的一个或多个的可能性。你当然可以把它改成任何你想要的。然后,我添加了一个简短的RapidMiner过程,将其减少到前三个标签。
1.您需要创建一个免费的Indico帐户来获取API密钥。你可以在https://indico.io/密钥应该看起来像一长串字母数字字符。保持此密钥的安全性,因为这是Indico验证和分配账单的方式。截至2016年12月,Indico的“随用随付”账户每月允许多达10,000次免费API调用。在此之后,每次通话收费为0.006美元,直至250,000次通话,以此类推(参见https://indico.io/dashboard/plans有关定价的更多信息)。
2.如果你还没有这样做,下载Web挖掘扩展在RapidMiner工作室。
3.构建一个进程,通过Webservice操作符(在Web Mining扩展中找到)将文本属性(称为“text”)发送到充实数据,然后连接到结果。如果您想使用我的过程作为起点(您需要插入自己的API密钥),我已经包含了下面的示例过程。
4.这里唯一困难的部分(也是API之间唯一的变化)是如何设置“通过Webservice充实数据”操作符。这是非常类似于谷歌云API设置(见之前的帖子),但有以下变化:
查询类型:JSON路径
属性类型:数值
JSONpath查询:
动漫. .美元动漫
人类学人类学美元. .
等等……
如果你想要全部的话,有111个标签。如果您从示例过程中获取XML,则可以节省大量手工输入的工作。
请求方法:POST
身体:{“数据”:“< % % >文本"}
URL:https://apiv2.indico.io/texttags
就是这样。结果应该是这样的:
Indico图像面部情感识别
在这里,我将展示如何使用Indico。io API“面部情绪识别”,拍摄一张包含人脸的图像,并提取图像包含六种可能情绪中的一种或多种的可能性:快乐、悲伤、愤怒、恐惧、惊讶、中性。你当然可以把它改成任何你想要的。
1.您将需要创建一个免费的Indico帐户,以获得API密钥,并获得Web挖掘扩展(见上文)。
2.构建一个将图像URL文本属性(称为“URL”)发送给Webservice操作符的进程。
3.通过Webservice充实数据的参数:
查询类型:JSON路径
属性类型:数值
JSONpath查询:
快乐美元. .快乐
悲伤的美元…悲伤
美元生气愤怒. .
恐惧美元. .
令人惊讶的是美元。
中性美元. .中性
请求方法:POST
身体:{“数据”:“< % URL % > "}
URL:https://apiv2.indico.io/fer
就是这样。如果你使用这张图片(https://pbs.twimg.com/profile_images/7962438846365
< ?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.4.000-BETA”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<过程扩展= " true " >
< /操作符>
< /操作符>
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " / >
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
< / >列表
<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >https://apiv2.indico.io/political" / >
<列出关键= " request_properties " >
< / >列表
< /操作符>
< /操作符>
<过程扩展= " true " >
<列出关键= " attribute_name " >
<参数键="概率"值="[A-Z].*"/>
< / >列表
< /操作符>
< /操作符>
< /操作符>
> < /过程选择最大概率
< /操作符>
> < /过程政治
< /操作符>
<过程扩展= " true " >
< /操作符>
< /操作符>
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >
< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
< / >列表
<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >https://apiv2.indico.io/language" / >
<列出关键= " request_properties " >
< / >列表
< /操作符>
< /操作符>
<过程扩展= " true " >
<列出关键= " attribute_name " >
<参数键="概率"值="[A-Z].*"/>
< / >列表
< /操作符>
< /操作符>
< /操作符>
> < /过程选择最大概率
< /操作符>
> < /过程语言检测
< /操作符>
<过程扩展= " true " >
< /操作符>
< /操作符>
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >
< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
< / >列表
<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >https://apiv2.indico.io/sentiment" / >
<列出关键= " request_properties " >
< / >列表
< /操作符>
< /操作符>
<列出关键= " function_descriptions " >
< / >列表情感感受
< /操作符>
> < /过程情感感受
< /操作符>
<过程扩展= " true " >
< /操作符>
< /操作符>
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >
< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
< / >列表
<参数键=“身体”值= "{“data":“& lt; %文本%的在“}" / >https://apiv2.indico.io/sentimenthq" / >
<列出关键= " request_properties " >
< / >列表
< /操作符>
< /操作符>
<列出关键= " function_descriptions " >
< / >列表情感感受
< /操作符>
> < /过程情感高质量
< /操作符>
<过程扩展= " true " >
< /操作符>
< /操作符>
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " / >
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
评论
@sgenzer,很棒的文章!这看起来很有帮助,我想尝试一下,并正在寻找参考的示例过程,但我找不到它。它是附在这篇文章里的吗,还是我应该在别处找到它?
还有索引的链接。上面的IO实际上似乎指向cloud.google.com。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
我试图使用这个,图像,但我得到“无法连接到https://”。我在尝试调用Azure时遇到了同样的错误!!
到底是怎么回事?什么好主意吗?
我不认为这个过程是为Azure设计的,所以它可能需要修改,而不仅仅是添加一个URL。与Create Document操作符不同,它不是用来加载图像的,而是用来加载txt、pdf、xml和html文件的。