打开一个现有的项目

解密 · 2021年7月

你好,

我当然是一个新手，我试图打开一个现有的项目，这是以下内容:
这个项目有很多资源，我无法打开(你可以从图片中看到乐鱼体育安装)
第二个问题是我打不开。海事包含项目数据的文件。

对于扩展名为. properties我不知道怎么用，在哪里用，

例如聚类。属性包含以下脚本

< ?xml version="1.0" encoding="UTF-8"?>

<！DOCTYPE属性系统"">

< >属性

存储库条目群集属性

<输入键=“所有者”> zhaohengrui > < /条目

< / >属性

我搜索了很多类似的东西，但我没有找到，抱歉，如果这是以前问过，我没有看到它。

谢谢你！

Image: https://us.v-cdn.net/6030995/uploads/editor/da/8w21tx5lzfel.jpg

Image: https://us.v-cdn.net/6030995/uploads/editor/oy/v874dlujvikc.jpg

MarcoBarradas · 2021年7月

@Decrypter在我看来，您需要从该文件夹中创建一个存储库。

按照图像步骤操作。

Image: https://us.v-cdn.net/6030995/uploads/editor/u5/zyddah7xhxvb.jpg

Image: https://us.v-cdn.net/6030995/uploads/editor/58/j1yhfhmvjjb6.jpg

Image: https://us.v-cdn.net/6030995/uploads/editor/ge/ijhg6ktp9je6.jpg

Image: https://us.v-cdn.net/6030995/uploads/editor/kn/2g8c3dv970g5.jpg

Image: https://us.v-cdn.net/6030995/uploads/editor/ym/mziaouofflyb.jpg

给它一个名字，然后点击文件夹图标，搜索你的文件夹。

这将把所有的文件结构加载到RM中，然后就可以使用它了。

MarcoBarradas · 2021年7月

@Decrypter

文件夹中存储的对象似乎坏了。

好消息是，您可以使用数据集文件夹上提供的excel文件重新构建数据集。

您只需要使用读取excel操作符和标称文本来执行其他所有操作。

我上传了一个你需要做的例子。但所有内容都在自动化作业报告。pdf中进行了描述文件

MarcoBarradas · 2021年7月

嗨@Decrypter

您遇到的问题是由于流程文档操作符抛出的属性数量(超过1.5k)，这将占用大量内存和时间来创建集群。

你需要做两件事来解决这个问题:

在pdf中提到，他们应用了一个过滤字典，并提供了一个单词列表。您可以在jobstopwords .txt中找到这些过滤词
我建议您对流程文档的输出进行修剪，并使用排序方法进行修剪。

他们在文件中提到的几个步骤在他们的流程中没有完成，所以你需要修复一些事情。

如果您参加我们学院的文本挖掘课程，您将更好地了解正在发生的事情。免费! !
https://academy.www.turtlecreekpls.com/learn/course/text-and-web-mining-with-rapidminer/text-and-web-mining/lets-get-started

您将在附件中找到该过程的第二个版本，以帮助您开始。

周末愉快。

MarcoBarradas · 2021年7月

嗨@Decrypter，

请查看我对之前分享的流程所做的更改。

您得到的错误与您在Process Documents上输出的列类型有关。在我的过程中，我读取excel文件，然后在我使用过程文档操作符之前，我应用一个标称文本操作符。

它告诉RapidMiner，这两列应该被视为文本，这将删除您看到的错误。

对于与微调相关的帖子的第二条评论(将cluster_1和另一条更改为其他文本)，您需要使用Map Operator。在这个示例中，您可以提供一个单词列表，该列表将把集群输出的值替换为您喜欢使用的任何文本。

如果您对任何操作器的工作方式有疑问，请参阅每个操作器提供的帮助。如果您转到帮助文本的下部，您甚至可以看到一些示例。

MarcoBarradas · 2021年7月

嗨@Decrypter
1 cluster文件夹下的文件进程不是连续的步骤。
他们对同一数据集进行了多次分析未标记的职位发布数据集您可以通过使用我在共享的进程上使用的这两个操作符+一个存储操作符运行一个进程来创建相同的DataSet (DS)

Image: https://us.v-cdn.net/6030995/uploads/editor/nk/03lq0um5dsbl.jpg

并将该存储对象指向Folder 1 Clustering，这样就可以运行其他进程而不会出现任何错误。
请检查我之前分享的流程，以便在运行来自数据操作符的流程文档之前需要进行其他调整。如果你不调整它们，这个过程可能会占用你所有的内存。

你离我越来越近了。

MarcoBarradas · 2021年7月

嗨@Decrypter

您下载的文件似乎不是最终版本。

对于第一个错误，问题是与Clustering Operator输出的连接有关，它们需要以另一种方式连接。

查看该操作符的帮助。

对于第二个错误，您需要一个标签(您想要预测的列)，这里显示的过程也是错误的。
它需要处理集群过程的输出。
/1聚类/标签职位发布数据集(K-Means他们提到他们将创建一个模型来预测工作机会的类型。这就是标签。

在提到的文本中，您需要将每个集群转换为一个单词。
为此，您可以添加一个MAP操作符，其中包含单词列表和需要替换的单词。

我将在这里停止我的帮助，因为有了这些示例，您已经有足够的答案来适应您将在整个文件夹中打开的所有其他过程。

我强烈建议你去https://academy.www.turtlecreekpls.com/
有关如何实现项目所需的多个任务的更多深入视频。

您的流程应该如下图所示

Image: https://us.v-cdn.net/6030995/uploads/editor/q0/y4jvidneqt6c.png

周末愉快。

MarcoBarradas · 2021年7月

@Decrypter
您需要使用store Operator将来自Clustering过程的单词列表输出存储为DS。
然后，您需要使用该DS并将其连接到Process Document文本输入端口(它将告诉操作符要保留哪些列)。请记住，用于评分的数据(ResumeData)对于您想评分的任何模型都应该具有相同的属性#，具有相同的名称和类型。
您还需要使用set Role操作符将标签属性设置为label。
检查是否所有进程都指向计算机上存储数据的文件夹。我所分享的流程应该可以帮助您了解需要对存储在Rapid miner Repository中的流程进行更改的内容。

kayman · 2021年7月

您可以忽略这些属性，它们是在加载项目时重新创建的。md文件应该从rm studio(加载数据操作符)中打开。

解密 · 2021年7月

谢谢你的回答，我在哪里可以找到负载数据操作员?

解密 · 2021年7月

谢谢@MarcoBarradas我已经尝试创建它，没有任何成功，我认为在阅读md文件的问题。
这里是我想运行的项目:
https://github.com/superhen/Automated-Job-Resume-Matching-Solution

解密 · 2021年7月

@MarcoBarradas
谢谢你的帮助，我刚刚尝试了这个新文件，但是我得到了这个错误。
我有32Gb的内存，我把快速矿工工作室的最大内存增加到999999999。
但我总是得到这个错误!

Image: https://us.v-cdn.net/6030995/uploads/editor/33/wbrqfq97gn9p.png

解密 · 2021年7月

MarcoBarradas谢谢你的帮助和这门课，我一定会上的。

对于这个过程，它生成一个名为“标记的工作发布数据集(K-Means)”的文件，当我在“1.1.1 Project_Clustering_K-Means_Performance”中使用时，我再次得到这个错误:

Image: https://us.v-cdn.net/6030995/uploads/editor/6z/f84wmepgd6bk.jpg

在文件中，我不知道他们是怎么做这样的分类的在第8页，图10和11，他们说“调查”

每个集群的前15个最频繁的单词“和”对它们进行微调，转换集群编号(即。

' Cluster_3 ')到名义名称(即'开发人员')，并进行修改标记的职位发布数据集”

我认为这就是问题所在，因为使用您的进程生成的文件与文档中的图10和图11非常不同。

请耐心听我说，也许这对将来的人也有帮助。

解密 · 2021年7月

嘿@MarcoBarradas

谢谢你的解释。
事实上，我使用了你与我分享的最后一个过程(Clustering_V2.rmp)，如果你用它来模拟，你会发现一个生成的文件名为“标签工作发布数据集(K-Means)”，到目前为止没有问题。

但是在接下来的步骤中，我需要使用这个生成的文件来继续我的项目。如果采用“1.1.1 Project_Clustering_K-Means_Performance。并尝试使用生成的文件进行模拟，您将得到我在前面的注释中向您展示的错误。

解密 · 2021年7月

嘿@MarcoBarradas

的确，我做了和你提到的一样的事情，但是我得到了那个错误。
附件是我根据你的解决方案修改的流程。

我对2个分类过程做了同样的事情，得到了同样的错误。

Image: https://us.v-cdn.net/6030995/uploads/editor/3d/6i1el5uwylke.jpg

解密 · 2021年7月

@MarcoBarradas这里是我应用你的想法的过程，但我又犯了这个错误

Image: https://us.v-cdn.net/6030995/uploads/editor/25/myevsoh5kjel.jpg

解密 · 2021年7月

亲爱的@MarcoBarradas
非常感谢你，你已经帮了我很多，我真的很感激!!

我有两件事希望你能帮我。

1-第一，在你的文件Clustering_V3，我得到这个错误:

Image: https://us.v-cdn.net/6030995/uploads/editor/xm/xf1cz7bhx5hd.jpg

2-第二个是在2.1.2 ResumeDataSet_Processing

Image: https://us.v-cdn.net/6030995/uploads/editor/dc/5lzn3q4i3gwk.jpg

我很抱歉要求这么多，请原谅我，这是我最后的毕业设计。

非常感谢

解密 · 2021年7月

谢谢你！@MarcoBarradas

我刚刚试着这样做，但没有任何运气:

Image: https://us.v-cdn.net/6030995/uploads/editor/1n/czra1anrl7h1.jpg

我使用聚类(k-mean)生成了一个新的ResumeData，我在2.1.2 ResumeDataSet_Processing中上传了这个新的ResumeData。
我又得到了这个新的非匹配项。

这是最后一步，要匹配的ResumeDataSet，请我将非常感谢你最后的尝试!!

解密 · 2021年7月

使用@MarcoBarradas解决方案。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

打开一个现有的项目

最好的答案

答案