"对文本数据使用K-means聚类算法出错"

basel_deebbasel_deeb 成员职位:2贡献我
2019年6月编辑 帮助
你好,

我使用的文本数据包含三个属性(NAME, LABEL, DOMAIN),这是数据的一个示例:

名称标签域
------------------------------------------------------------------
源自字符串
目标到字符串
离港日期
离港月份

我想使用k-means聚类运算符来聚类数据,但不幸的是,在执行之前我得到了这个错误:

安装过程中似乎没有任何明显的错误,但您应该检查日志消息或在设置对话框中激活调试模式,以便获得有关此问题的更多信息。

以下是日志消息:

2012年12月26日1:23:44 AM信息:进程//NewLocalRepository/IOS/EM启动
2012年12月26日1:23:44 AM信息:加载初始数据。
2012年12月26日1:23:45 AM严重:进程失败:操作无法执行。查看日志信息…
2012年12月26日1:23:45 AM SEVERE: Here: Process[1] (Process)
子进程“主进程”
+-取回[1](取回)
==> +-聚类[1](k-Means)
2012年12月26日1:23:45 AM严重:java.lang.NullPointerException


这里是XML:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 5.2.008 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文




< /操作符>




< /操作符>





> < /过程
< /操作符>
> < /过程

任何建议都将非常感激。谢谢!

答案

  • SkirzynskiSkirzynski 成员职位:164Maven
    我已经执行了您的过程与您的数据的短样本,但无法重现的错误。您能否提供不能工作的最小数据量(CSV) ?

    附注:请使用本论坛中的代码标签来标识您的流程和数据。
  • basel_deebbasel_deeb 成员职位:2贡献我
    非常感谢Marcin先生的回复,
    实际上,当我卸载RapidMiner然后重新安装它时,我感到惊讶,它工作了

    然而,如果你不介意的话,我有一个问题,在通过K-means生成质心簇之后,我怎么能知道它们,因为它是这样生成的:

    Cluster_0
    Cluster_1
    Cluster_2

    再次感谢
  • SkirzynskiSkirzynski 成员职位:164Maven
    如果在结果视图中查看集群模型,可以看到几个不同的视图。例如,在“文件夹视图”中,所有实际包含任何示例的集群都显示为文件夹。如果您单击集群中的一个项目,您可以看到详细信息。你感兴趣的是“质心表”。所有的聚类质心都列出了它们的值。如果创建了集群,但不包含任何示例(因为k太高),则此质心将具有问号而不是值。
登录注册置评。