看起来你是新来的。登录或注册即可开始。
<?xml version="1.0" encoding="UTF-8"?> < parameter key="logverbosity" value="init"/> (电子邮件保护)"/> <参数key="process_duration_for_mail" value="1"/ b> <参数key="encoding" value="SYSTEM"/ b> <参数key="generator_type" value="逗号分隔的文本"/> <参数key="number_of_examples" value="100"/> <参数key="use_stepsize" value="false"/> <参数Key ="add_id_attribute" value="false"/> <参数key="date_format" value="yyyy-MM-dd HH:mm:ss"/> <参数key="time_zone" value="SYSTEM"/> <参数key="input_csv_text" value="Name1,Country1 Cat INC,XXX Cow INC,YYY Aerodyn AAAA,ZZZ SEEB RSL,AAA Naok Universities,BBB DEECUN METRICS INFO SA,CCC"/> <参数key="column_separator" value=","/> <参数key="parse_all_as_nominal" value="false"/> <参数key="decimal_point_character" value="。"/> <参数key="trim_attribute_names" value="true"/> <参数key="generator_type" value="逗号分隔的文本"/> <参数key="number_of_examples" value="100"/> <参数key="use_stepsize" value="false"/> <列表key=" function_descriptor "/> <参数key="add_id_attribute" value="false"/> <列表Key ="numeric_series_configuration"/> <参数key="date_format" value="yyyy-MM-dd HH:mm:ss"/> <参数key="time_zone" value="SYSTEM"/> <参数key="input_csv_text" value="Name2,Country2 Cow LLP,YYY CAT LLP,XXX SEEBEE RSL,AAA Aerodyn Tarr group,ZZZ VICE DEECUN IMPORTS,CCC Naok Mosken- Zalim isti,BBB"/> <参数key="column_separator" value=","/> <参数key="decimal_point_character" value="。"/> <参数key="trim_attribute_names" value="true"/> <参数key="left_side_attribute" value="Name1"/> <参数key="right_side_attribute" value="Name2"/> <参数key="number_of_matches" value="3"/> <参数key="similarity_measure" value="LEVENSHTEIN_TOKEN_SORT_RATIO"/> 使用Levenshtein比率或任何变化来定义两个名称模糊匹配的相似性度量 <参数key="parameter_expression" value="Country1= " Country2"/> <参数key="condition_class" value="expression"/> <参数key="invert_filter"value="false"/>
答案
你有工具箱扩展安装尝试新的“模糊匹配”操作符?它将使用流行的Levenshtein距离或任何其他变化距离度量来合并两个模糊匹配的表。它将显示您想要的几个候选匹配。
您可以在模糊匹配之后应用一个过滤器,以确保县名完全相同。
示例流程在这里
欢呼,
YY
我有2个优秀。两者都有公司和国家名称。但是公司名称是相似的,并不相同。我必须匹配公司名称(即使名称中的一个单词是匹配的,例如:猫公司而且猫LLP)应该匹配),并将最终匹配的数据显示在一个excel文件中,如下(3)所示。我还附上了两个excel(1和2)的数据示例。我用颜色编码了它,以便它们可以被理解为类似的公司名称(Cat INC = Cat LLP)。而且,真正的数据文件包含1000行的数据。因此,如果有人能提出一种模型类型,可以比较和匹配两个文件之间的数据,这将是有帮助的。
你可以从“读取Excel”中加载数据并尝试一下
输出是这样的
HTH !
YY