预测缺失值

hatsjikidee · 2019年10月

你好所有的,

我有一个数据集，里面有大约3000首被评级的歌曲。大约有一半被评分，另一半没有。我正在尝试建立一个模型，根据用户的评分来预测空的评分。我做了以下几点:

我的问题是，这是正确的吗?我需要做些调整使它更正确吗?因为当我改变k时，我得到不同的值。还有一个问题:我如何只显示已经预测的值，而不是完整的概述，包括已经填充的值。

提前谢谢!

Image: https://us.v-cdn.net/6030995/uploads/editor/nx/gofny4v48ndg.png

lionelderkrikor · 2019年10月

@hatsjikidee，

好的，我明白了。理论上，你的方法是好的....但正如你提到的，对于每个k值，你有不同的结果，但你不能评估每个预测的“性能”。

在我看来，要创建一个真正的推荐模型，你需要歌曲的描述性特征。例如
你需要一个与每首歌相关的数据集，它的风格(流行，摇滚等)，长度，作者等。

希望这能有所帮助，

问候,

莱昂内尔

PS:有一个有用的资源(一本书)给你:
-RapidMiner，数据挖掘用例和业务分析应用程序，(第9章:在RapidMiner中构建推荐系统)，来自Markus Hofmann和Ralf Klinkenberg。
-相关的扩展“推荐”(从市场安装)。

lionelderkrikor · 2019年10月

嗨@hatsjikidee，

如果你对你的歌曲有一些描述性的特征，你可以基于你的标记数据(你的评级歌曲)建立一个模型，然后将这个模型应用到未标记的数据(未评级的歌曲)。

为了进一步帮助你，你能分享你的数据吗?

希望这能有所帮助，

问候,

莱昂内尔

hatsjikidee · 2019年10月

嗨,莱昂内尔,

数据集有3个属性:
歌曲名称-评分-(评分者姓名)

每个用户大约有40首歌，其中20首有评级，20首没有。所以我们的目标是根据用户对已经评分的内容来预测缺失的内容。希望这能给你更多的解释。

MarcoBarradas · 2019年10月

@hatsjikidee作为@lionelderkrikor你需要在已有的数据上添加更多的数据，然后你就可以预测用户将给出的速率。还可以阅读一些关于Netflix算法如何工作的内容。您还可以通过获取歌词并进行一些文本挖掘来为分析增加一些复杂性，以获得在歌曲中重复次数更多的单词，以及它们的存在是否会影响用户的降级。
我不知道你这样做是作为课程的一部分，还是只是为了好玩，但在现实生活中，作为数据科学家的一部分是分析问题，识别可能预测或不预测结果的数据，然后从数据源中提取出来。有时示例集包含了您可能需要的所有属性，有时您需要到互联网上寻找它来增强您的分析。
希望这对你有所帮助，如果你需要帮助，给我们发短信，我们很乐意在这个过程中指导你。

致以最亲切的问候。

hatsjikidee · 2019年10月

所以据我所知，只要有可能，我就能通过这个过程做出正确的预测。谢谢你们两位的帮助和信息!

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

预测缺失值

最佳答案

答案