2个数据相似的优胜者如何比较匹配?

Jayanthan12Jayanthan12 成员职位:3.新手
我有2个优秀。两者都有公司名称和国家数据。但是公司名称是相似的,并不相同。因此,使用国家数据(是相同的),我必须匹配公司名称,并在一个excel文件中显示最终匹配的数据。我还附上了两个excel中的数据示例。我用颜色编码了它,以便它们可以被理解为类似的公司名称(Cat INC = Cat LLP)。我创建了一个使用像replace这样的操作符的模型(有很多手工工作,比如输入可替换的值)。而且,真正的数据文件包含1000行的数据。因此,如果有人能提出一种模型类型,可以比较和匹配两个文件之间的数据,这将是有帮助的。













答案

  • kaymankayman 成员职位:662独角兽
    你可以使用连接操作符,结合set - 1。首先,你链接excel文件,这样你就得到了两个数据集,你给你的名字ID角色,内部连接两个数据集,因为这些将是常见的,并使用减号操作符将其链接回你的原始集。这将告诉您缺少了什么(或者在本例中有所不同)。
    BalazsBarany
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家
    @Jayanthan12

    你有工具箱扩展安装尝试新的“模糊匹配”操作符?它将使用流行的Levenshtein距离或任何其他变化距离度量来合并两个模糊匹配的表。它将显示您想要的几个候选匹配。
    您可以在模糊匹配之后应用一个过滤器,以确保县名完全相同。

    示例流程在这里
    <?xml version="1.0" encoding="UTF-8"?>      < parameter key="logverbosity" value="init"/>   (电子邮件保护)"/> <参数key="process_duration_for_mail" value="1"/ b> <参数key="encoding" value="SYSTEM"/ b>   <参数key="generator_type" value="逗号分隔的文本"/> <参数key="number_of_examples" value="100"/> <参数key="use_stepsize" value="false"/>  <参数Key ="add_id_attribute" value="false"/>    <参数key="date_format" value="yyyy-MM-dd HH:mm:ss"/> <参数key="time_zone" value="SYSTEM"/> <参数key="input_csv_text" value="Name1,Country1
    Cat INC,XXX
    Cow INC,YYY
    Aerodyn AAAA,ZZZ
    SEEB RSL,AAA
    Naok Universities,BBB
    DEECUN METRICS INFO SA,CCC"/> <参数key="column_separator" value=","/> <参数key="parse_all_as_nominal" value="false"/> <参数key="decimal_point_character" value="。"/> <参数key="trim_attribute_names" value="true"/>   <参数key="generator_type" value="逗号分隔的文本"/> <参数key="number_of_examples" value="100"/> <参数key="use_stepsize" value="false"/> <列表key=" function_descriptor "/> <参数key="add_id_attribute" value="false"/> <列表Key ="numeric_series_configuration"/>   <参数key="date_format" value="yyyy-MM-dd HH:mm:ss"/> <参数key="time_zone" value="SYSTEM"/> <参数key="input_csv_text" value="Name2,Country2
    Cow LLP,YYY
    CAT LLP,XXX
    SEEBEE RSL,AAA
    Aerodyn Tarr group,ZZZ
    VICE DEECUN IMPORTS,CCC
    Naok Mosken- Zalim isti,BBB"/> <参数key="column_separator" value=","/> <参数key="decimal_point_character" value="。"/> <参数key="trim_attribute_names" value="true"/>   <参数key="left_side_attribute" value="Name1"/> <参数key="right_side_attribute" value="Name2"/> <参数key="number_of_matches" value="3"/> <参数key="similarity_measure" value="LEVENSHTEIN_TOKEN_SORT_RATIO"/> 使用Levenshtein比率或任何变化来定义两个名称模糊匹配的相似性度量   <参数key="parameter_expression" value="Country1= " Country2"/> <参数key="condition_class" value="expression"/> <参数key="invert_filter"value="false"/>             




    欢呼,
    YY
    BalazsBarany
  • Jayanthan12Jayanthan12 成员职位:3.新手
    我想澄清一下我的疑问。

    我有2个优秀。两者都有公司和国家名称。但是公司名称是相似的,并不相同。我必须匹配公司名称(即使名称中的一个单词是匹配的,例如:猫公司而且猫LLP)应该匹配),并将最终匹配的数据显示在一个excel文件中,如下(3)所示。我还附上了两个excel(1和2)的数据示例。我用颜色编码了它,以便它们可以被理解为类似的公司名称(Cat INC = Cat LLP)。而且,真正的数据文件包含1000行的数据。因此,如果有人能提出一种模型类型,可以比较和匹配两个文件之间的数据,这将是有帮助的。







  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家
    通过模糊匹配和滤波,可以对这两个输入表进行模糊连接
    你可以从“读取Excel”中加载数据并尝试一下


    输出是这样的



    HTH !

    YY
登录注册置评。