看起来你是新来的。登录或注册开始。
我用k均值对数据进行聚类。为此,我使用nominal To numeric操作符将标称值转换为数字值,但将编码类型参数设置为“唯一整数”。我如何逆转这个转换,在输出中我可以看到这些值在转换之前在集群中是什么。例如,如果"sandwich"被映射到0,我想把0反向映射回sandwich。
这可能不是最优雅的解决方案,但你可以这样做:
在类型对话之前乘以您的示例集。将乘法运算符的第一个输出连接到当前流程,然后添加连接运算符并将结果示例集连接到左侧端口。将multiply的第二个输出连接到连接的右端口。
您将需要一个id来进行连接,并且您可能希望进行一些预处理(重命名属性等)。
谢谢,这有用。我从来没想过。
如果名义类别本身不是有序的,那么要非常小心“唯一整数”映射。例如,如果将三明治、面包和黄油映射为1,2,3,则k-means认为1到3之间的距离大于1到2或2到3之间的距离。但是对于无序的类别,这没有任何意义,并且在聚类时可能导致奇怪和扭曲的结果。如果标称类别没有排序,最好使用数字虚拟编码或简单地使用混合欧几里得距离(它假设所有不相同的标称值之间的距离为1,正是为了避免这个问题)。
谢谢。我最初使用了虚拟编码,但它破坏了记录,因为我有许多无序的标称值。我将尝试使用混合欧氏距离。如何使用它呢?
假设每个属性没有太多标称值,您也可以使用效果代码。
没关系,我知道怎么用混合欧氏距离了
答案
谢谢,这有用。我从来没想过。
如果名义类别本身不是有序的,那么要非常小心“唯一整数”映射。例如,如果将三明治、面包和黄油映射为1,2,3,则k-means认为1到3之间的距离大于1到2或2到3之间的距离。但是对于无序的类别,这没有任何意义,并且在聚类时可能导致奇怪和扭曲的结果。如果标称类别没有排序,最好使用数字虚拟编码或简单地使用混合欧几里得距离(它假设所有不相同的标称值之间的距离为1,正是为了避免这个问题)。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
谢谢。我最初使用了虚拟编码,但它破坏了记录,因为我有许多无序的标称值。我将尝试使用混合欧氏距离。如何使用它呢?
假设每个属性没有太多标称值,您也可以使用效果代码。
没关系,我知道怎么用混合欧氏距离了
谢谢!
在最新版本的程序中是否有当前公认的解决方案?
他怎么能在2020年做到这一点呢?
同样提到的方法有效吗?
如果可能请提供图表!