如何为数值变量定义Jaccard / Dice相似性?

Fred12Fred12 成员职位:344独角兽
2019年9月编辑 帮助

你好,

如下所述:http://www.stata.com/manuals13/mvmeasure_option.pdf

扑克牌是TP/(TP+FP+FN)…因为似乎二元变量…

但是它是如何定义数值的呢?因为它可以作为k-NN算子中的数值距离度量。

骰子相似度是如何定义的?

编辑:我在这里找到了实现:https://github.com/rapidminer/rapidminer-studio/tree/master/src/main/java/com/rapidminer/tools/math/similarity/numerical

编辑2:好吧,看起来就是2 * x*y / x+y

其中X和Y是两个属性为x_i和y_i的向量,

2 * wxy / (wx + wy);

其中wxy是两个向量对应属性和的乘积,

wx, wy是x和y各自属性值的和。

看起来像是一些奇怪的距离测量,不知道这是否有意义…

评论

  • 艾晓雄艾晓雄 成员职位:1新手
    你好,
    根据这个定义,Jaccard和Dice对于相同向量的相似性比不同向量的相似性要低。[1,0]更类似于[2,0]而不是[1,0]。
    它看起来像一个bug,名义相似度的计算用于数字。但是数值骰子相似度的正确定义应该是2 * |x y| / (|x|^2 + |y|^2)。
    你可以应用二进制向量的数值定义,反之则不行。
登录注册置评。