使用DetectLanguage API检测文本挖掘中的书面文本语言
你好,快速矿工
这是另一个很好的、易于使用的API,如果您有多种语言的文本,可以使用它来丰富文本挖掘过程。感谢用户@tibi为了这个主意!
超级容易上手:
1.去https://detectlanguage.com,注册,并获得API密钥
2.输入您的“外文”文本并通过Encode URLs操作符运行它(转换为UTF-8)
3.使用我们经典的“通过Webservice充实数据”操作符或“获取页面”操作符与您的凭据来查询API并获得JSON响应。
4.使用任何常用方法解析JSON。
RapidMiner进程使用丰富的数据通过Webservice
待翻译的信息
解析JSON响应
很好的例子集在文本挖掘中使用!
下面是XML处理。享受吧!
斯科特
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.0.001”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= " attribute_value " >
< / >列表
<列出关键= " set_additional_roles " / >
< /操作符>
< /操作符>
<列出关键= " string_machting_queries " / >
<列出关键= " regular_expression_queries " >
< / >列表
<列出关键= " regular_region_queries " / >
<列出关键= " xpath_queries " / >
<列出关键= "名称" / >
<列出关键= " index_queries " / >
<列出关键= " jsonpath_queries " >
< / >列表http://ws.detectlanguage.com/0.2/detect?q=&肝移植;%消息%,gt;, amp;关键= e [enter-your-key-here]" / >
<列出关键= " request_properties " / >
< /操作符>
> < /过程
< /操作符>
> < /过程
1
评论
@s242936请注意,您必须创建自己的API密钥才能使用此过程。参见上面的步骤1。
斯科特
第二个注意事项:如果您使用Process Documents作为此流程的输入,则可能需要使用Set Role操作符将文本属性设置为“regular”....