如何Rapidminer处理相同的距离为KNN算法

ademuchlisademuchlis 成员职位:7因素二世
2019年8月编辑 帮助
也许我很笨,但我就是找不到一个令人满意的答案:使用knn算法,
说k = 5。现在我试着通过得到一个未知物体最近的5个邻居来给它分类。
该怎么办,如果距离是很多相同的距离…
如果在确定了4个最近的邻居后,接下来的2个(或更多)最近的对象具有相同的距离和不同的标签?在这两个或更多的快速矿工中,哪个对象被选为第5最近的邻居?

我困惑. .我在excel中尝试,结果与某些数据的rapidminer不同。

在这种情况下,矿工的排序距离有多快?
我的数据有问题吗?,或快速矿工排序随机如果相同的距离?

提前感谢:)

标记:
Tghadially

答案

  • TghadiallyTghadially 员工、社区经理、会员职位:20.社区经理
    @ademuchlis

    //www.turtlecreekpls.com/blog/k-nearest-neighbors-laziest-machine-learning-technique/

    这个链接应该可以回答你的问题,但如果没有,请随时联系!
    ademuchlis (删除用户)
  • ademuchlisademuchlis 成员职位:7因素二世
    2019年8月编辑
    嗨Tghadially,
    非常感谢您的回复。
    你提供的链接非常有用。

    不幸的是,这是一个新帐户,不能附加图像或链接,

    根据我在其他论坛上看到的以及你提供的链接,
    所以对于KNN来说,有几种方法可以处理相同的距离…?
    看平均距离,或者类似的。

    rapidminer使用的是哪一种?..

    我无法理解和找到rapidminer在确定距离是否相同时使用的是哪种算法?


    嗯. .
    也许可以这样描述
    根据数据训练计算数据测试结果为:

    数据训练第1次到第4次距离为0(计数距离0为4)
    数据训练第5到第10次距离为1(距离1计数为6)
    数据训练第11次至第15次距离为2(距离2计数为5)
    数据训练第16 ~ 20次距离为3(距离3计数为5)
    数据训练第21 - 25次距离为4(距离4计数为5)

    如果距离是升序排序的,结果是这么多相同的距离。
    如果k = 5
    所以在分类中,会使用大部分来自数据训练的标签,它具有最低的5距离计算。

    在rapidminer算法中,大多数第1到第5个数据标签使用什么?我认为不是,因为当我用MS Excel进行人工计算时,有一些不同的数据。

    还是第1 - 25号数据标签的大部分?
    因为
    距离0是1
    距离1是2
    距离2是3
    距离3是4
    距离4是5

    还是平均值?
    还是rapidminer使用了另一种算法?
    如果检查加权投票,结果又会不同。

    我没有找到一个合适的快速矿工计算与我的手动计算与上述距离。

    我希望你能明白我的意思。
    提前感谢你的帮助。
  • TghadiallyTghadially 员工、社区经理、会员职位:20.社区经理
    @ademuchlis我已经提升了你,所以你现在可以发布图片和截图了!
    ademuchlis (删除用户)
  • ademuchlisademuchlis 成员职位:7因素二世
    2019年8月编辑
    非常感谢您的支持。

    正如我之前所解释的
    实际上问题是这样的:

    有7000个测试数据培训
    3000个数据测试。
    还有那么多相同的距离…


    我困惑. .我尝试在excel中排序距离,结果与某些数据的rapidminer不同。在excel中,K = 5的结果标签为“LU”
    我试着用ID 182训练数据。A和B列是ID。
    计算只从C列到L列
    带标签的是M列。

    从excel中得到的结果是这样的,大多数标签是“LU”:


    但为什么rapidminer的结果是“LT”:rapidminer结果

    结果快速矿工加权投票被检查为“LU”:Rapidminer加权投票

    我处理这种情况多快啊…

    同样的距离有多快?
    我的数据有问题吗?
    还是在相同距离下随机排序的快速矿工?

    提前感谢你的帮助

    Tghadially
  • ademuchlisademuchlis 成员职位:7因素二世
    2019年8月编辑
    有人能告诉我这个吗?
    请……
    Tghadially
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @ademuchlis


    为了让我们重现你所观察到的,并理解发生了什么,你能分享一下吗:

    -您的流程(XML)
    -你的数据集。

    不幸的是,我对你的问题没有确切的答案....但首先,近似,考虑k = 5,没有加权投票:
    前四个最接近的邻居有2个“LT”和2个“LU”……
    ...但对于第五个更近的邻居,有许多候选点与测试点的距离相同(距离= 1)。
    我在RapidMiner中对第五个近邻的最终选择以及测试点标签的最终选择的假设是:
    -从候选点(与测试点的距离均为1)中随机选择第5个邻居。
    -如果两个标签的概率相同(这里50%(LT) / 50%(LU)),则选择数据集中的第一个训练点,在RapidMiner内部代码的循环中。换句话说,它相当于一个随机选择。
    -对于同等考生,候选人按字母顺序分类,因此选择“LT”标签而不是“LU”标签。
    -最后,从我的角度来看,更合乎逻辑的解释是:在第五个近邻(与测试点的距离都为1)的候选中,大多数标签为“LT”(和少数标签为“LU”)。所以从逻辑上讲,最后的结论是label =测试点的“LT”…

    也许一些RapidMiner的开发人员可以解开这个谜团....?
    谢谢你,

    问候,

    莱昂内尔
    Tghadially ademuchlis
  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区经理、RMResearcher、会员、大学教授职位:1751年RM创始人
    说实话,我只是简单地看了一下相关的职业,并不是很明显。我的直觉是,对于第五个邻居,选择只是基于数据点添加到队列中的顺序,即返回具有(相同)最小距离的第一个数据点。在您的案例中,这似乎是一个LU案例。你可以通过打乱数据中数据点的顺序来验证(例如,在加载数据之前按升序或降序排序)。我没有看到任何关于随机数的参考,所以我将排除这些选项……
    以下是链接:
    希望这能帮到你,
    Ingo
    varunm1 lionelderkrikor Tghadially sgenzer
  • ademuchlisademuchlis 成员职位:7因素二世

    谢谢你的解释。
    下面是XML导出的结果

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.2.000”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文







    <过程扩展= " true " >

















    <列出关键= "注释" / >




    <列出关键= " data_set_meta_data_information " >













    < / >列表



    < /操作符>

















    < /操作符>

















    <列出关键= "注释" / >




    <列出关键= " data_set_meta_data_information " >













    < / >列表



    < /操作符>

    <列出关键= " application_parameters " / >

    < /操作符>


    < /操作符>












    > < /过程
    < /操作符>
    > < /过程

    我只把流程导出为xml,对吗?

    附Xml,数据训练,数据测试和excel手工计算。
    第一列和第二列是ID,最后一列是label。

    我希望手工excel计算是容易理解的

    提前感谢你的帮助

  • ademuchlisademuchlis 成员职位:7因素二世
    @IngoRM

    谢谢你的回复。
    我打乱了数据的顺序,结果和上面的很不一样。准确性是不同的。
    尽管我只是打乱了数据的顺序



    如果数据已被洗牌。Excel的结果也不同,因为Excel只按距离排序。


    有没有可能,rapidminer不仅从远处排序?

    嗯. .那么如何在excel中手动计算这种情况呢?

    最初的数据如上面所附。

    对于excel, XML与随机顺序附在这里


    提前感谢你的帮助
    Tghadially
登录注册置评。