“训练回归算法的一些帮助[SOLVED]”
嗨,亲爱的快节奏社区,
我正在测试rapidminer建模,以制作一个基于内容的推荐系统。为此,我下载了movielens 100K数据集,其中包含有关电影的信息以及用户对电影的评分(http://www.grouplens.org/node/73)。评分范围在0到5之间,电影有类型信息(动作、喜剧等)。我正在使用具有更多评级的用户训练分类器(uid= 405;评论数= 737)。为此,我将评级标签离散化(良好>= 3.5;bad < 3.5),但由于用户有更多带有bad标签的评论,分类器(libSVM)将所有标签预测为bad。
真坏真好类精度
精准医疗坏621 116 84.26%
精准医疗好0 0 0 0%
类召回率100% 0%
所以我采用了另一种策略,分层抽样(http://rapid-i.com/rapidforum/index.php/topic 2190.0.html)平衡好与坏的标签。我得到以下结果
真坏真好类精度
精准医疗坏58 80 42.03%
精准医疗好57 35 38.04%
班级召回率50.43%,30.43%
但正如你所看到的,所获得的性能仍然不太好,我真的很感谢任何建议。
谢谢。
爱德华多
编辑:很抱歉复制了这条消息
我正在测试rapidminer建模,以制作一个基于内容的推荐系统。为此,我下载了movielens 100K数据集,其中包含有关电影的信息以及用户对电影的评分(http://www.grouplens.org/node/73)。评分范围在0到5之间,电影有类型信息(动作、喜剧等)。我正在使用具有更多评级的用户训练分类器(uid= 405;评论数= 737)。为此,我将评级标签离散化(良好>= 3.5;bad < 3.5),但由于用户有更多带有bad标签的评论,分类器(libSVM)将所有标签预测为bad。
真坏真好类精度
精准医疗坏621 116 84.26%
精准医疗好0 0 0 0%
类召回率100% 0%
所以我采用了另一种策略,分层抽样(http://rapid-i.com/rapidforum/index.php/topic 2190.0.html)平衡好与坏的标签。我得到以下结果
真坏真好类精度
精准医疗坏58 80 42.03%
精准医疗好57 35 38.04%
班级召回率50.43%,30.43%
但正如你所看到的,所获得的性能仍然不太好,我真的很感谢任何建议。
谢谢。
爱德华多
编辑:很抱歉复制了这条消息
0
答案
要优化它们,请使用优化参数(网格)操作符。C和的合适范围是在对数尺度上的10^-5 - 10^5。
最好的,马吕斯
至少现在最好是跟着分类器预测(而不是相反)结果是
准确度59.13%±7.33%
真差真好类精度
pred。坏86 65 56.95%
pred。好的29 50 63.29%
类召回率74.78% 43.48%
也许我需要放置movielens1m数据集。
再次感谢。