BUG报告:文本挖掘,聚类过程

YungChengYungCheng 成员职位:1新手
当我尝试运行文本挖掘的聚类过程时,出现了错误消息。过程,错误信息和csv文件附在下面。
标记:

最佳答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    解决方案接受
    你好,你没有包括实际的RMP文件,所以我只是猜测什么可能出了问题。你的数据有超过20K个例子,你的文本有1000个独特的术语,k-means聚类并不是很好地处理1000个属性。所以我假设你的电脑内存不足了。为了验证这一点,我建议将你的样本量减少到1000(只是为了测试)。更重要的是,您需要减少解析过程生成的术语数量。因此,我建议在流程文档中启用从数据中进行修剪,使其简单,例如百分比从5%到30%,这可能会使属性的数量少于300。如果它工作,使用所有100%的数据。我还注意到,你在聚类之前没有规范化你的数据,所以很难直观地分析你的数据。好运!
    雅各
    lionelderkrikor YungCheng
    登录注册置评。