2个数据相似的优胜者如何比较匹配?

Jayanthan12 · 2021年2月

我有2个优秀。两者都有公司名称和国家数据。但是公司名称是相似的，并不相同。因此，使用国家数据(是相同的)，我必须匹配公司名称，并在一个excel文件中显示最终匹配的数据。我还附上了两个excel中的数据示例。我用颜色编码了它，以便它们可以被理解为类似的公司名称(Cat INC = Cat LLP)。我创建了一个使用像replace这样的操作符的模型(有很多手工工作，比如输入可替换的值)。而且，真正的数据文件包含1000行的数据。因此，如果有人能提出一种模型类型，可以比较和匹配两个文件之间的数据，这将是有帮助的。

Image: https://us.v-cdn.net/6030995/uploads/editor/bz/alisruptrcvg.jpg

kayman · 2021年2月

你可以使用连接操作符，结合set - 1。首先，你链接excel文件，这样你就得到了两个数据集，你给你的名字ID角色，内部连接两个数据集，因为这些将是常见的，并使用减号操作符将其链接回你的原始集。这将告诉您缺少了什么(或者在本例中有所不同)。

yyhuang · 2021年2月

嗨@Jayanthan12，

你有工具箱扩展安装尝试新的“模糊匹配”操作符?它将使用流行的Levenshtein距离或任何其他变化距离度量来合并两个模糊匹配的表。它将显示您想要的几个候选匹配。
您可以在模糊匹配之后应用一个过滤器，以确保县名完全相同。

示例流程在这里

<？xml version="1.0" encoding="UTF-8"?>      < parameter key="logverbosity" value="init"/>   (电子邮件保护)"/> <参数key="process_duration_for_mail" value="1"/ b> <参数key="encoding" value="SYSTEM"/ b>   <参数key="generator_type" value="逗号分隔的文本"/> <参数key="number_of_examples" value="100"/> <参数key="use_stepsize" value="false"/>  <参数Key ="add_id_attribute" value="false"/>    <参数key="date_format" value="yyyy-MM-dd HH:mm:ss"/> <参数key="time_zone" value="SYSTEM"/> <参数key="input_csv_text" value="Name1,Country1
Cat INC,XXX
Cow INC,YYY
Aerodyn AAAA,ZZZ
SEEB RSL,AAA
Naok Universities,BBB
DEECUN METRICS INFO SA,CCC"/> <参数key="column_separator" value="，"/> <参数key="parse_all_as_nominal" value="false"/> <参数key="decimal_point_character" value="。"/> <参数key="trim_attribute_names" value="true"/>   <参数key="generator_type" value="逗号分隔的文本"/> <参数key="number_of_examples" value="100"/> <参数key="use_stepsize" value="false"/> <列表key=" function_descriptor "/> <参数key="add_id_attribute" value="false"/> <列表Key ="numeric_series_configuration"/>   <参数key="date_format" value="yyyy-MM-dd HH:mm:ss"/> <参数key="time_zone" value="SYSTEM"/> <参数key="input_csv_text" value="Name2,Country2
Cow LLP,YYY
CAT LLP,XXX
SEEBEE RSL,AAA
Aerodyn Tarr group,ZZZ
VICE DEECUN IMPORTS,CCC
Naok Mosken- Zalim isti,BBB"/> <参数key="column_separator" value="，"/> <参数key="decimal_point_character" value="。"/> <参数key="trim_attribute_names" value="true"/>   <参数key="left_side_attribute" value="Name1"/> <参数key="right_side_attribute" value="Name2"/> <参数key="number_of_matches" value="3"/> <参数key="similarity_measure" value="LEVENSHTEIN_TOKEN_SORT_RATIO"/> 使用Levenshtein比率或任何变化来定义两个名称模糊匹配的相似性度量   <参数key="parameter_expression" value="Country1= " Country2"/> <参数key="condition_class" value="expression"/> <参数key="invert_filter"value="false"/>

欢呼,
YY

Jayanthan12 · 2021年2月

我想澄清一下我的疑问。

我有2个优秀。两者都有公司和国家名称。但是公司名称是相似的，并不相同。我必须匹配公司名称(即使名称中的一个单词是匹配的，例如:猫公司而且猫LLP)应该匹配)，并将最终匹配的数据显示在一个excel文件中，如下(3)所示。我还附上了两个excel(1和2)的数据示例。我用颜色编码了它，以便它们可以被理解为类似的公司名称(Cat INC = Cat LLP)。而且，真正的数据文件包含1000行的数据。因此，如果有人能提出一种模型类型，可以比较和匹配两个文件之间的数据，这将是有帮助的。

Image: https://us.v-cdn.net/6030995/uploads/editor/yp/3rt12uqiwa6y.jpg

yyhuang · 2021年2月

通过模糊匹配和滤波，可以对这两个输入表进行模糊连接
你可以从“读取Excel”中加载数据并尝试一下

Image: https://us.v-cdn.net/6030995/uploads/editor/3w/liln3mdp1psa.png

输出是这样的

Image: https://us.v-cdn.net/6030995/uploads/editor/xd/ua5dwrjx9l9s.png

HTH !

YY

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

2个数据相似的优胜者如何比较匹配?

答案