网络爬行的联系目录

现金 · 2020年3月

我试图抓取这个网站，以创建一个包含姓名、位置、电话号码和专业类型的个人从业者的Excel文档https://www.psychologytoday.com/us/therapists

上面的链接下面有每个州的链接，每个州大约有50页左右的联系方式。我只是想把html拉出来，这样我以后就可以把联系人数据拉出来，可能是用Tableau Prep。我从选择器小工具中得到的CSS标签是span, h1， .location-address-phone

这是我使用的运算符，它什么也没返回。有人能帮我弄明白吗?谢谢!

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 9.5.001”>

https://www.psychologytoday.com/us/therapists" / >

<列出关键= " crawling_rules " >

https://www.psychologytoday.com/us/therapists/。*" / >

< / >列表

< /操作符>

> < /过程

Telcontar120 · 2020年3月

不幸的是，抓取Web操作符不能处理https页面(并且还有其他几个已知的问题)。您可以通过使用Get Pages并准备一个包含要存储的页面链接的csv文件来复制其功能。由于页面链接似乎遵循常规模式，您可以使用Excel甚至使用RapidMiner轻松创建这样的列表。这应该使您能够存储您想要的数据(同时假设它没有违反该站点的使用条款)。

现金 · 2020年3月

谢谢你，布莱恩。听你这么说真令人失望。我不认为我可以在RM中做到这一点，我真的不知道如何做你所说的过程。我在T&C内部确认过，刮削是可以的。我找到了一个不同的软件，可以让我很容易地抓取网站。我有我要找的信息了。再次感谢您的回复!

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

网络爬行的联系目录

最佳答案

答案