无论你是一个专注于最小化产品缺陷的工厂经理,还是一个想要预测即将到来的活动结果的营销人员,你所需要的数据很可能不容易处理。
在许多情况下,您需要引入大量的非结构化数据来创建一个有用的预测模型这意味着,要将数据转换成可用的格式,还需要做相当多的工作。问题是,数据集通常有很多列,很难确定从哪里开始。
这就是集群发挥作用的地方。
什么是聚类分析?
集群是一种无监督机器学习它描述的是将具有相似特征的数据进行分组,而不考虑具体结果的过程。典型的聚类分析的结果是根据相似度将数据点分组——组中的项目彼此相似,而不同的组是不同的。
值得注意的是,集群可以不同的形式,有多种算法可以选择(Mean-Shift, DBSCAN等),这取决于你的数据集的性质。最著名的是k-means聚类,它通过随机选择中心数据点,然后通过迭代优化它们的位置来创建组。
同样重要的是要知道,您可能不会将集群应用于每个数据科学项目——相反,在某些特定的情况下,集群可以节省大量的时间和精力。乐鱼平台进入
为什么使用聚类分析?
正如您在阅读本文开头时可能已经猜到的那样,集群最显著的好处是能够将一个庞大的、看起来笨拙的数据集转变为便于机器学习的东西。这是如何。
在处理大量非结构化数据时,依靠人工对其进行排序通常是没有意义的。在这些场景中,手工组织和分类数据并不能有效地(或特别有效地)利用时间,因为现实世界的数据集可能有数百列甚至数百万行。
聚类通过将大型数据集分解成更容易处理的形式,可以大大减少花费在初始分析上的时间。通过对列进行排序并找到共同特征,聚类算法可以快速组织数据,并帮助识别值得进一步探索的有意义的模式。
什么时候使用聚类分析?
因为集群在很大程度上是分组和模式识别练习,它可以帮助解决广泛的业务挑战。以下是今天它最常用的一些方式。
客户细分
营销团队可以利用集群来开发基于共同特征的客户群体,这允许他们为具有相似兴趣和行为的群体创建定制的消息和独特的服务。
异常检测
这种技术允许用户在数据集中识别与其他数据点不具有相同特征或不遵循其他数据点的项一般模式.这在很多方面都有帮助,比如识别欺诈性信用卡交易,或者确定一台机器是否需要修理。
推荐系统
推荐系统目标是根据共同特征为用户群提供高度相关的建议——如果你曾根据Netflix的推荐刷剧,或根据亚马逊的推荐购买过东西,你就已经熟悉这是如何工作的了。
集群如何在RapidMiner中工作
既然我们已经确定了什么是聚类分析以及何时使用它,让我们进一步探索它是如何工作的。我们已经讨论了很多关于最近的啤酒因此,为了让事情变得有趣,让我们把注意力集中在葡萄酒上。
无论你认为自己是鉴赏家,还是只是偶尔喝上一杯,你可能都知道葡萄酒有很多特性,它们造就了它的味道。在本节中,我们将使用RapidMiner运行基本的聚类分析——目标是在数据集中找到可以帮助我们区分不同葡萄酒类型的模式。
分析
无监督学习中最常见的两个挑战是:
- 寻找分离良好的集群
- 了解这些集群的主要特征
在回顾聚类算法的结果时,第一步通常是绘制聚类图。在现实世界中,数据集可以使用数百个列,这使得选择显示最佳分离的列具有挑战性和耗时。
这个问题的一个潜在解决方案是计算和比较每个集群中唯一值的平均出现次数。当发现模式RapidMiner去,您将看到每个集群组最重要的驱动因素的表格,这允许您选择正确的列,并查看是否有前景的集群。
在我们的样本数据集中,“驱动因素”表显示了每个列值对每个组的积极或消极贡献。在分类值的情况下,绿色或红色条表示给定值出现的频率高于或低于全局平均值。
结果
现在,让我们分析一下结果。正如“驱动因素”表所示,第一组的葡萄酒酸度高,单宁含量高,这表明它们是较年轻的西拉品种。相比之下,第二类葡萄酒的酸度接近平均水平,单宁含量较低。可能是黑皮诺,也可能是仙粉黛。第3组酸度低,单宁高,是赤霞珠。
如果我们选择两个最明确的列(柠檬酸和总二氧化硫)作为轴值,我们可以很好地绘制出3个不同的集群(值得注意的是,可能会有一些重叠)。
如果我们想更进一步,我们实际上可以使用这个数据集来构建一个预测模型(使用“Groups”作为目标列),并使用model Simulator自动预测未来的度量。
只需点击几下,我就得到了9个性能各异的模型。深度学习模型似乎是最准确的(93%),所以让我们在模拟器中使用它。
结束
聚类分析是一种技术,通过查找数据中隐含的结构,可以帮助您在处理大型非结构化数据集时节省大量的时间和精力。RapidMiner通过快速识别对每个组有积极或消极影响的驱动因素,帮助您更进一步,允许您探索数据集的正确部分,以查看是否有前景的集群。
通过寻找共同特征并将数据转换为更可用的格式,聚类算法可以识别您可能错过的模式,并帮助您更快地洞察。
想了解更多数据科学可以开始在您的组织中发挥作用的方法吗?乐鱼平台进入下载一份用人工智能影响你的组织的50种方法今天!