注意:如果你想报告一个新的错误,请发布一个新的问题并标记为“错误报告”。谢谢你!

在快速Miner Go中,线性回归算法使用了一些我没有选择的输入。

BillPBillP 成员职位:9新手
2020年4月编辑 产品反馈
我希望以前没有人问过我的问题。简而言之,RapidMiner Go似乎正在运行与我没有选择的变量的回归。下面是解释。在Rapid Miner Go中,我删除了一个有64列和近2900行的csv文件。我想使用线性回归和决策树(“易于解释”)预测单列(数字)。前两列是日期和时间。其他列是数字。我只选择了5个输入,页面上的指示器显示已选择了5个。我运行了回归,在数据度量中,它报告了我选择的5个输入加上我没有选择的7个输入的相关性。假设我没有选择7个输入来运行回归,我如何只用我选择的5个输入来运行回归? Thanks very much. Regards, Bill
标记:
Jasmine_ varunm1
1
1票

送至工程部·最后一次更新

ic - 1842

评论

  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    你好@BillP

    你能反复检查模型是否建立在你选择的基础之上吗?您可以在模型链接执行后单击它,然后向下滚动以查看有多少带有系数的属性。



    系数检查:


    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    Jasmine_
  • BillPBillP 成员职位:9新手
    谢谢你,瓦伦。我按照你的建议做了(实际上我已经检查了很多次系数),有12个系数,而不是应该有的5个。7个额外的输入似乎是随机选择的。当我转到Model Simulator并移动与我没有在其整个范围内选择的输入相对应的滑块时,它们会将预测变量移动少量,0.01或0.001%。其中一些变量的“权重”似乎很重要,但移动该变量的滑块不会对预测值产生太大影响。这就好像倒退失控了。我不知道为什么。
  • BillPBillP 成员职位:9新手
    我想这没什么关系,但是这件衣服很合身。模型与实际价值的关系比我预期的要好得多。
  • varunm1varunm1 主持人,职位:1207年独角兽
    这看起来很奇怪。你能做以下并提供你的流程给我吗?

    在Rapidminer Go中,一旦你点击之前通知的模型链接。在右上角有一个“导出”选项。如果你点击它,你会看到一个名为“下载过程”的选项。你能下载那个流程文件并附在这里检查吗?


    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    lionelderkrikor
  • BillPBillP 成员职位:9新手
    谢谢。我附加了导出的模型。
  • varunm1varunm1 主持人,职位:1207年独角兽
    你好@BillP

    谢谢分享。我会看一看,如果可能的话,试着在这里或在私人信息中分享你的数据,这样我就可以重新运行并向你解释他的现象的原因。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    lionelderkrikor
  • BillPBillP 成员职位:9新手
    你好,瓦伦,非常感谢。你说的私人信息是指你在网站上的私人邮件吗?
  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    我收到你的邮件了。将来你也可以在rapidminer社区中使用message选项。如果你点击我的名字,它会带你到我的个人资料,你可以在右上角找到“消息”选项。您可以发送附加文件的消息。下面是示例图片。




    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • BillPBillP 成员职位:9新手
    谢谢!
  • BillPBillP 成员职位:9新手
    正如您在私信中告诉我的那样,我从没有选择的6列标题中去掉了逗号,但最后仍然在分析中。去掉逗号后,线性回归模型结果显示只有5个输入,估计结果非常好。我希望这些关于专栏标题中逗号的信息可以帮助任何可能有同样问题的人。然而,我不认为任何人在未来会发现这个线程,除非主题是类似“逗号在列标题导致选择输入时的问题”。我有点惊讶的是,这一点很久以前没有被发现。我用逗号分隔标签和标签的单位,如“质量流量,t/h”。以下应该不会在RapidMiner Go中造成问题:“质量流量[t/h]”非常感谢您的帮助,祝您有一个美好的一天!
    varunm1
  • BillPBillP 成员职位:9新手
    我怎么能相信你是瓦伦?我不能点击我的评论,因为我只是按照你的建议行事
  • varunm1varunm1 主持人,职位:1207年独角兽
    你好比尔,

    没问题,让我们保留这个问题,因为我想让RM的朋友检查一下,也许可以开一个票来解决这个逗号问题。我不确定是否已经有一个说明,说我们不能在属性名中使用逗号,但我会等待这个问题得到解决,这样就不会有任何人未来的问题。

    @sgenzer这里有输入吗?
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • BillPBillP 成员职位:9新手
    如果列标题中有逗号,当它们被检测到时,应该向用户发出警告。一旦你知道它们不应该在那里,移除它们并不是那么不方便。不方便的是找到这些信息。祝贺你注意到了逗号,这很聪明。
    varunm1
  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    你好@sgenzer

    为了重复此错误,请将此CSV文件上传到RapidMiner GO,并选择“角度”作为下图中的预测变量和属性(没有逗号),并在下一个窗口中使用默认选择,易于解释,并将所有内容保留为默认值并运行分析。



    一旦分析完成,我们可以观察到GLM模型也使用了未选择的属性,如下所示。



    观察到的原因与属性名中“,”逗号的存在有关。我的理解是REGEX函数存在于加载和处理数据-->删除列模块被这个逗号值欺骗了。一旦从属性名中去掉逗号,我就看不到这个了。此外,在属性名中使用逗号,就不会在auto模型中发生这种情况。

    我不确定是否有指令不使用逗号在属性名称。
    Test_Set.xlsx 15.6 k
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    谢谢@varunm1我把这个推给了Prod Feedback,并将向RM Go团队汇报。
    varunm1
登录注册置评。