看起来你是新来的。登录或注册开始。
数据科学家 波士顿,MA RapidMiner, Inc.需要具有a, b, c和d技能的数据科学家。欲了解更多信息,请通过以下电子邮件联系Scott Genzer。< / p > < / div > 如果你读了所有的< div >带有类的元素乔,你可以有所有的div包含工作机会,这是我们正在寻找的。 顺便说一句,我忘了:你这样做有没有征得网站所有者的同意?有些网站并不喜欢用户抓取他们的网页。 愿一切都好! 杆。 0
RapidMiner, Inc.需要具有a, b, c和d技能的数据科学家。欲了解更多信息,请通过以下电子邮件联系Scott Genzer。< / p > < / div > 如果你读了所有的< div >带有类的元素乔,你可以有所有的div包含工作机会,这是我们正在寻找的。 顺便说一句,我忘了:你这样做有没有征得网站所有者的同意?有些网站并不喜欢用户抓取他们的网页。 愿一切都好! 杆。
答案
你可以做很多事情:
愿一切都好!
杆。
我真的很感谢你的帮助。
你下载了想要抓取的页面了吗?你有一些HTML知识吗?让我们首先构建数据库。我已经给了你几个解决方案,你可以指望检索页面。然后我们再进行其他过程。
您将如何下载数据?
愿一切都好!
杆。
如果你已经下载了你的网页,你是把它们作为一个目录中的文件,多个目录中的文件,还是作为数据库中的条目?
我们需要做的第一件事是使这些条目看起来像数据库中的条目(或RapidMiner Studio示例集中的条目)。为此,您需要执行以下操作(让我们只使用一个文件来构建进程,然后我们将使用循环打开所有文件,好吗?)
首先,选择一个文件,用浏览器打开它,阅读代码并识别HTML结构。你可以利用Firefox和Chrome的“Inspect Element”功能。你能在HTML文件中识别出工作机会是如何被识别的吗?一个例子: