在RapidMiner与玫瑰重复的名称

珍妮珍妮 成员职位:4贡献我
2020年7月编辑 知识库

新的Rosette API端点和Rapidminer操作符,用于数据清理

识别和协调重复记录是数据库管理中常见的令人头痛的问题,特别是当差异非常细微且可能被大多数重复数据删除系统忽略时。如果您的记录包含包含拼写错误、昵称、首字母和非拉丁脚本的重复记录,那么您可能会丢失连接,从而使代理和团队成员无法获得所需的信息。

Rosette API推出了一个新的/重复数据端点,它利用我们业界领先的模糊名称匹配来连接包含中度或“模糊”变化的数据库记录。与其他只能选择精确匹配的重复数据删除器不同,Rosette允许用户查找并协调类似的记录,以获得更干净的数据库。为了使这个功能更容易访问,我们同时为Rapidminer Studio发布了一个“重复名称”操作符,它在底层使用了新的端点。

玫瑰重复名称操作符通过为匹配名称的组分配“组id”,从名称列表中识别候选重复名称。该操作符可以处理多达10,000个英文名称的列表,并根据用户指定的匹配阈值分配组id。阈值设置两个名称被视为重复所需的最小相似度分数。可以通过点击操作符并在“Threshold”字段中输入0到1之间的值来设置阈值。我们建议从0.8的阈值开始,并根据您的用例和结果试验更高或更低的值。

给定一个名称列表作为输入,输出是每个名称的集群id(整数)列表,没有任何特定的顺序。然后可以根据集群ID对输出进行排序,以将可能的重复名称分组在一起。例如:
截屏时间2017-11-17下午3:53.12 .png

截屏时间2017-11-17下午3:53.23 .png

使用其他字段进一步优化结果

当你在Rapidminer中提交一个名称重复删除请求时,你只需要输入一个名称列表;但是,您还可以将实体类型(如果已知)设置为人员(默认)、位置或组织,以提高准确性。

Rosette API /重复数据删除端点还支持Rapidminer提供的其他语言和脚本字段,以进一步改善您的结果。

截屏时间2017-11-17下午3:52.40 .png

你自己试试

准备好开始删除数据中的名称了吗?首先,报名获得免费的玫瑰API密钥(最多10,000次/月),然后转到Rapidminer

如果你需要处理大量的记录,或者不想把数据发送到云端,和我们的销售团队谈谈关于自定义解决方案和内部部署。

Telcontar120 sgenzer
    登录注册置评。