“训练回归算法的一些帮助[SOLVED]”

manwannmanwann 成员职位:7因素二世
2019年6月编辑 帮助
嗨,亲爱的快节奏社区,

我正在测试rapidminer建模,以制作一个基于内容的推荐系统。为此,我下载了movielens 100K数据集,其中包含有关电影的信息以及用户对电影的评分(http://www.grouplens.org/node/73)。评分范围在0到5之间,电影有类型信息(动作、喜剧等)。我正在使用具有更多评级的用户训练分类器(uid= 405;评论数= 737)。为此,我将评级标签离散化(良好>= 3.5;bad < 3.5),但由于用户有更多带有bad标签的评论,分类器(libSVM)将所有标签预测为bad。

真坏真好类精度
精准医疗坏621 116 84.26%
精准医疗好0 0 0 0%
类召回率100% 0%

所以我采用了另一种策略,分层抽样(http://rapid-i.com/rapidforum/index.php/topic 2190.0.html)平衡好与坏的标签。我得到以下结果

真坏真好类精度
精准医疗坏58 80 42.03%
精准医疗好57 35 38.04%
班级召回率50.43%,30.43%


但正如你所看到的,所获得的性能仍然不太好,我真的很感谢任何建议。

谢谢。

爱德华多

编辑:很抱歉复制了这条消息
标记:

答案

  • MariusHelfMariusHelf RapidMiner认证专家、会员职位:1869年独角兽
    在这种情况下,分层抽样通常是一个好主意。但是现在你只剩下几个训练样本了,这当然对性能不利。其次,支持向量机的性能在很大程度上取决于参数的正确选择(特别是C,在rbf核Gamma的情况下),以及您使用的核(好的选择通常是线性和rbf/径向)。
    要优化它们,请使用优化参数(网格)操作符。C和的合适范围是在对数尺度上的10^-5 - 10^5。

    最好的,马吕斯
  • manwannmanwann 成员职位:7因素二世
    马吕斯,谢谢您的回答!

    至少现在最好是跟着分类器预测:)(而不是相反)结果是

    准确度59.13%±7.33%
    真差真好类精度
    pred。坏86 65 56.95%
    pred。好的29 50 63.29%
    类召回率74.78% 43.48%

    也许我需要放置movielens1m数据集。

    再次感谢。
登录注册置评。