我是否可以从SEEK获得与工作相关的网络涂鸦解决方案?

TirthTirth 成员职位:4新手
你好,
我正在做关于工作技能评估的学术项目研究。
我正在寻找网页爬行脚本或解决方案的职位细节,如工作角色,位置,技能和知识,从求职门户网站,如确实,寻求。请在这件事上帮助我。
标记:

答案

  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    嗨Tirth,

    你可以做很多事情:
    • 使用RapidMiner中的Get Pages操作符。
    • 使用Python扩展并使用scrapy编写自己的脚本(这比您想象的要容易)
    • 使用Python扩展并使用Selenium Web Browser和BeautifulSoup编写自己的脚本(这很难做到,并且需要更多的软件,但如果使用JavaScript生成页面,效果会更好)。
    • 使用一个名为“Sitesucker”的工具,并配置它来检索数据到RapidMiner。然后,您可以分析RapidMiner内部来自文件的数据。
    这是我能想到的。

    愿一切都好!

    杆。
    hbajpai Tirth
  • TirthTirth 成员职位:4新手
    非常感谢你的回答。实际上,我想使用协同关联规则来提取工作数据。我只是个新手。你能帮我更多的忙吗?
  • TirthTirth 成员职位:4新手
    很多谢谢!我需要检索就业市场(建筑信息建模部门相关)的数据,如工作角色,位置(仅在新西兰),要求如技能,知识和经验,使用联合关联规则。我想对抽取的信息进行一些分析,比如共现现象。
    我真的很感谢你的帮助。
  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    重要的事情先说:

    你下载了想要抓取的页面了吗?你有一些HTML知识吗?让我们首先构建数据库。我已经给了你几个解决方案,你可以指望检索页面。然后我们再进行其他过程。

    您将如何下载数据?

    愿一切都好!

    杆。
  • TirthTirth 成员职位:4新手
    是的,我下载的页面应该是废弃的。你建议先做什么?你能解释一下吗?
  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    @Tirth

    如果你已经下载了你的网页,你是把它们作为一个目录中的文件,多个目录中的文件,还是作为数据库中的条目?

    我们需要做的第一件事是使这些条目看起来像数据库中的条目(或RapidMiner Studio示例集中的条目)。为此,您需要执行以下操作(让我们只使用一个文件来构建进程,然后我们将使用循环打开所有文件,好吗?)

    首先,选择一个文件,用浏览器打开它,阅读代码并识别HTML结构。你可以利用Firefox和Chrome的“Inspect Element”功能。你能在HTML文件中识别出工作机会是如何被识别的吗?一个例子:

    数据科学家

    波士顿,MA

    RapidMiner, Inc.需要具有a, b, c和d技能的数据科学家。欲了解更多信息,请通过以下电子邮件联系Scott Genzer。< / p > < / div >


    如果你读了所有的< div >带有类的元素,你可以有所有的div包含工作机会,这是我们正在寻找的。

    顺便说一句,我忘了:你这样做有没有征得网站所有者的同意?有些网站并不喜欢用户抓取他们的网页。

    愿一切都好!

    杆。
登录注册置评。