将具有相同单词但无序出现的配置文件字符串分组

Robertd · 2020年10月

我有一个包含一列配置文件类型的数据帧，看起来像这样:

left t_side right_side similarity0 Android Java 1 Software Development Developer 2 Full-stack Developer 3 JavaScript Frontend Design 4 Android iOS JavaScript 5 Ruby JavaScript PHP

我使用NLP模糊匹配相似的配置文件，它返回以下相似的数据帧:

            7 JavaScript前端设计设计JavaScript前端设计JavaScript 0.814599 9 JavaScript前端设计JavaScript前端0.808010 10 JavaScript前端设计JavaScript前端设计JavaScript前端0.802881 12 Android iOS JavaScript Android iOS Java 0.925126 15机器学习工程师机器学习开发人员0.839165 21 Android开发人员Android开发人员0.872646 25设计营销测试设计营销0.817195 28质量质量保证开发人员0.948010
            虽然这很有帮助，让我从478个独特的个人资料增加到461个，但我想关注的是这样的个人资料:
           

           
            JavaScript前端设计

            我所见过的解决这个问题的唯一工具是difflib?我的问题是，还有什么其他技术可以用来检查和标准化这些配置文件同样的话，但顺序不同，到一个标准字符串。因此，期望的输出将是，采用包含“设计”，“前端”和“JavaScript”的字符串，并将其替换为“设计前端JavaScript”。
            现在，我将我的原始数据框与相似数据框合并，以用left_side替换右侧配置文件字符串的所有出现，但这意味着我将下面的right_side(“Java Python数据科学”)替换为下面的left_side(“JavaScript Python数据科学”)。乐鱼平台进入
            
            53 JavaScript Python 乐鱼平台进入Data Science Java Python Data Science
任何帮助都将非常感谢!< / p > < / div > < div > < br > < / div >
           
______________________

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

将具有相同单词但无序出现的配置文件字符串分组

答案