我是否可以从SEEK获得与工作相关的网络涂鸦解决方案?

Tirth · 2020年4月

你好,
我正在做关于工作技能评估的学术项目研究。
我正在寻找网页爬行脚本或解决方案的职位细节，如工作角色，位置，技能和知识，从求职门户网站，如确实，寻求。请在这件事上帮助我。

rfuentealba · 2020年4月

嗨Tirth,

你可以做很多事情:

使用RapidMiner中的Get Pages操作符。
使用Python扩展并使用scrapy编写自己的脚本(这比您想象的要容易)
使用Python扩展并使用Selenium Web Browser和BeautifulSoup编写自己的脚本(这很难做到，并且需要更多的软件，但如果使用JavaScript生成页面，效果会更好)。
使用一个名为“Sitesucker”的工具，并配置它来检索数据到RapidMiner。然后，您可以分析RapidMiner内部来自文件的数据。

这是我能想到的。

愿一切都好！

杆。

Tirth · 2020年4月

非常感谢你的回答。实际上，我想使用协同关联规则来提取工作数据。我只是个新手。你能帮我更多的忙吗?

rfuentealba · 2020年4月

当然可以，但是你得告诉我你的流程是什么。不要担心RapidMiner，只关心你首先想要实现什么，并尽量做到详细

Tirth · 2020年4月

很多谢谢!我需要检索就业市场(建筑信息建模部门相关)的数据，如工作角色，位置(仅在新西兰)，要求如技能，知识和经验，使用联合关联规则。我想对抽取的信息进行一些分析，比如共现现象。
我真的很感谢你的帮助。

rfuentealba · 2020年4月

重要的事情先说:

你下载了想要抓取的页面了吗?你有一些HTML知识吗?让我们首先构建数据库。我已经给了你几个解决方案，你可以指望检索页面。然后我们再进行其他过程。

您将如何下载数据?

愿一切都好！

杆。

Tirth · 2020年4月

是的，我下载的页面应该是废弃的。你建议先做什么?你能解释一下吗?

rfuentealba · 2020年4月

嗨@Tirth，

如果你已经下载了你的网页，你是把它们作为一个目录中的文件，多个目录中的文件，还是作为数据库中的条目?

我们需要做的第一件事是使这些条目看起来像数据库中的条目(或RapidMiner Studio示例集中的条目)。为此，您需要执行以下操作(让我们只使用一个文件来构建进程，然后我们将使用循环打开所有文件，好吗?)

首先，选择一个文件，用浏览器打开它，阅读代码并识别HTML结构。你可以利用Firefox和Chrome的“Inspect Element”功能。你能在HTML文件中识别出工作机会是如何被识别的吗?一个例子:

 数据科学家
 波士顿，MA
 RapidMiner, Inc.需要具有a, b, c和d技能的数据科学家。欲了解更多信息，请通过以下电子邮件联系Scott Genzer。< / p > < / div >

如果你读了所有的< div >带有类的元素乔，你可以有所有的div包含工作机会，这是我们正在寻找的。

顺便说一句，我忘了:你这样做有没有征得网站所有者的同意?有些网站并不喜欢用户抓取他们的网页。

愿一切都好！

杆。

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

我是否可以从SEEK获得与工作相关的网络涂鸦解决方案?

答案

数据科学家

波士顿，MA