将具有相同单词但无序出现的配置文件字符串分组
我有一个包含一列配置文件类型的数据帧,看起来像这样:
left t_side right_side similarity0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript PHP
我使用NLP模糊匹配相似的配置文件,它返回以下相似的数据帧:
7 JavaScript前端设计设计JavaScript前端设计JavaScript 0.814599 9 JavaScript前端设计JavaScript前端0.808010 10 JavaScript前端设计JavaScript前端设计JavaScript前端0.802881 12 Android iOS JavaScript Android iOS Java 0.925126 15机器学习工程师机器学习开发人员0.839165 21 Android开发人员Android开发人员0.872646 25设计营销测试设计营销0.817195 28质量质量保证开发人员0.948010
虽然这很有帮助,让我从478个独特的个人资料增加到461个,但我想关注的是这样的个人资料:
JavaScript前端设计
我所见过的解决这个问题的唯一工具是difflib?我的问题是,还有什么其他技术可以用来检查和标准化这些配置文件同样的话,但顺序不同,到一个标准字符串。因此,期望的输出将是,采用包含“设计”,“前端”和“JavaScript”的字符串,并将其替换为“设计前端JavaScript”。
现在,我将我的原始数据框与相似数据框合并,以用left_side替换右侧配置文件字符串的所有出现,但这意味着我将下面的right_side(“Java Python数据科学”)替换为下面的left_side(“JavaScript Python数据科学”)。乐鱼平台进入
53 JavaScript Python 乐鱼平台进入Data Science Java Python Data Science
任何帮助都将非常感谢!< / p > < / div > < div > < br > < / div >
______________________
0
答案
德国多特蒙德