如何将k-均值聚类转化为带标签数据的预测

Laura_BrongersLaura_Brongers 成员职位:1新手
嗨,我有一个Kaggle比赛形式的作业(称为2nd assignment DMT, 2022年VU数据挖掘技术杯),我有一个非常大的标记数据集,其中包含在网站上搜索和预订酒店的客户的数据。每一行都有一个搜索ID(因此一个客户可以进行多次搜索)。一个搜索是一个酒店,它有几个属性,如位置,每晚价格,星级等。例如,搜索了多少个晚上,有多少成年人会入住,酒店的星级是多少等等。我想预测的结果变量是客户是否会预订。此属性已包含在数据集中,并设置为label。此外,我想考虑客户点击酒店的几率,这也是数据集中的二进制属性(点击是/否)。
我制作了一个k-means集群与快速矿工工作室,通过:
1.将已预订属性的角色(yes/no)设置为label
2.获取数据的样本(20%)
3.选择我们认为有用的属性
4.规范化的数据
5.将标称数据转换为数值数据
6.应用k= 3,100次k-means聚类,将cluster作为属性添加到数据和所有其他默认设置中
7.对集群距离应用性能度量

现在我想根据这些簇对label booking (y/n)做一个预测。它必须成为一个包含搜索ID和该客户预订该搜索酒店的机会的列表。我的问题是,如何将以集群为属性的数据转换为预测列表?
如果预测也考虑到顾客点击该酒店的几率,那就太好了。
    登录注册置评。