将具有相同单词但无序出现的配置文件字符串分组

RobertdRobertd 成员职位:1新手
2020年10月编辑 帮助

我有一个包含一列配置文件类型的数据帧,看起来像这样:

left t_side right_side similarity0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript PHP

我使用NLP模糊匹配相似的配置文件,它返回以下相似的数据帧:

7 JavaScript前端设计设计JavaScript前端设计JavaScript 0.814599 9 JavaScript前端设计JavaScript前端0.808010 10 JavaScript前端设计JavaScript前端设计JavaScript前端0.802881 12 Android iOS JavaScript Android iOS Java 0.925126 15机器学习工程师机器学习开发人员0.839165 21 Android开发人员Android开发人员0.872646 25设计营销测试设计营销0.817195 28质量质量保证开发人员0.948010

虽然这很有帮助,让我从478个独特的个人资料增加到461个,但我想关注的是这样的个人资料:

JavaScript前端设计

我所见过的解决这个问题的唯一工具是difflib?我的问题是,还有什么其他技术可以用来检查和标准化这些配置文件同样的话,但顺序不同,到一个标准字符串。因此,期望的输出将是,采用包含“设计”,“前端”和“JavaScript”的字符串,并将其替换为“设计前端JavaScript”。

现在,我将我的原始数据框与相似数据框合并,以用left_side替换右侧配置文件字符串的所有出现,但这意味着我将下面的right_side(“Java Python数据科学”)替换为下面的left_side(“JavaScript Python数据科学”)。乐鱼平台进入

53 JavaScript Python 乐鱼平台进入Data Science Java Python Data Science

任何帮助都将非常感谢!< / p > < / div > < div > < br > < / div >

______________________

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3291年RM数据科学家
    你好,
    如果安装了toolbox,那么在Generate Attribute中有一个名为fuzzy_match的函数。这里解释了一些选项:https://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-matching-in-python/
    应该正好涵盖了这个。

    工具箱也有一个模糊匹配操作符,可以在这里有用(并使用相同的函数)。

    最好的
    马丁





    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Robertd
登录注册置评。