找出名字和分数之间的关系
你好,
我对数据挖掘和rapidminer都是新手,希望你能帮助我完成我的任务
首先是关于我的(输入数据)的一些细节
我有一个excel表与以下结构:
document_id、name_0 name_1 name_n,得分
1234年,0,0,1,50.1
1235年,1,1,1,70.9
1236年,0,0,0,20.5
id是一个唯一的数字,名称列解释name_i是否出现在数据中(1)或不出现在数据中(0)(列的标签是该人的姓名)以及文档的相应分数。正如您所看到的,excel文件看起来像一个矢量。
我的目标是找到名称(名义属性)和分数(数字)之间的相关性。因此,如果文档中出现name_0或name_1(或name_i),则文档的分数可能更高。
当在rapidminer中搜索“相关性”时,出现了相关矩阵,但我不确定它是否是处理此任务的正确工具。
你知道有什么方法可以正确处理这个任务吗?
非常感谢
0
答案
你好@dbzyko我认为相关性矩阵是一个很好的起点。它会给你r(或r^2)个成对特征的值这会给你一个感觉。
斯科特