登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.5 k
所有类别
19.5 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
平均
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
平均
sara20
成员
职位:
110
独角兽
2020年5月
2020年5月编辑
在
帮助
你好
对于一个数据集,我需要标签,所以我使用行的平均值,现在的问题是:为什么使用一个简单的标签的准确性非常低,为什么如果我使用平均值作为一个属性,然后根据我做的平均值“UP”和“DOWN”标签,准确率是95%?
你对此有什么看法?
平均值为数据带来相关性吗?(我认为数据的相关性不好)那么为什么结果不正常?
除了平均值,你对统计学有什么建议?
先谢谢你
莎拉
0
最佳答案
Telcontar120
主持人,RapidMiner认证分析师,RapidMiner认证专家,会员
职位:
1635年
独角兽
2020年6月
解决方案接受
嗨,萨拉,你的问题我不太清楚。也许您可以提供一个示例过程或数据文件。但一般来说,如果平均值包含了来自其他样本的信息这些样本不是你训练集的一部分那么你可能会有信息泄漏这会使你的模型产生偏差使它看起来比实际更强。
布莱恩·T。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
5
答案
sara20
成员
职位:
110
独角兽
2020年6月
2020年6月编辑
@Telcontar120
谢谢你的回答。在这种情况下,如何为数据创建标签呢?(不要用“平均”,你建议用什么作为标签?)
对不起,数据不是我的,我不能分享。
问候
莎拉
0
Telcontar120
主持人,RapidMiner认证分析师,RapidMiner认证专家,会员
职位:
1635年
独角兽
2020年6月
在不了解基础数据的情况下很难说。但一般来说,我不会通过组合来自多个示例的信息来创建标签——为什么不使用在未转换状态下平均的属性本身作为标签呢?
如果希望预测分类问题而不是数值,还可以定义一个阈值,然后创建一个标称属性来指定属性是高于还是低于该阈值。例如,如果价值是销售额,那么您可以定义“高价值”交易的阈值,例如1000美元,然后根据该阈值将单个示例分类为高价值或不高价值。但是,您可能需要咨询领域专家的数据,以确定这样的阈值。
布莱恩·T。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
0
sara20
成员
职位:
110
独角兽
2020年6月
@Telcontar120
我有一个标签,就像你提到的那样,它很有用,但与平均值非常相似,因为我取了一个平均值
属性,或多或少就是我的标签。因此,仍然带来了数据的相关性,结果准确率在95%以上。
无论如何,谢谢你的回答
莎拉
0
登录
或
注册
置评。
答案
谢谢你的回答。在这种情况下,如何为数据创建标签呢?(不要用“平均”,你建议用什么作为标签?)
对不起,数据不是我的,我不能分享。
问候
莎拉
如果希望预测分类问题而不是数值,还可以定义一个阈值,然后创建一个标称属性来指定属性是高于还是低于该阈值。例如,如果价值是销售额,那么您可以定义“高价值”交易的阈值,例如1000美元,然后根据该阈值将单个示例分类为高价值或不高价值。但是,您可能需要咨询领域专家的数据,以确定这样的阈值。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
我有一个标签,就像你提到的那样,它很有用,但与平均值非常相似,因为我取了一个平均值属性,或多或少就是我的标签。因此,仍然带来了数据的相关性,结果准确率在95%以上。
无论如何,谢谢你的回答
莎拉