网络爬行的联系目录
我试图抓取这个网站,以创建一个包含姓名、位置、电话号码和专业类型的个人从业者的Excel文档https://www.psychologytoday.com/us/therapists
上面的链接下面有每个州的链接,每个州大约有50页左右的联系方式。我只是想把html拉出来,这样我以后就可以把联系人数据拉出来,可能是用Tableau Prep。我从选择器小工具中得到的CSS标签是span, h1, .location-address-phone
这是我使用的运算符,它什么也没返回。有人能帮我弄明白吗?谢谢!
https://www.psychologytoday.com/us/therapists" / >
https://www.psychologytoday.com/us/therapists/。*" / >
https://www.psychologytoday.com/us/therapists/。*" / >
上面的链接下面有每个州的链接,每个州大约有50页左右的联系方式。我只是想把html拉出来,这样我以后就可以把联系人数据拉出来,可能是用Tableau Prep。我从选择器小工具中得到的CSS标签是span, h1, .location-address-phone
这是我使用的运算符,它什么也没返回。有人能帮我弄明白吗?谢谢!
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.5.001”>
<列出关键= " crawling_rules " >
< / >列表
< /操作符>
> < /过程
标记:
1
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽不幸的是,抓取Web操作符不能处理https页面(并且还有其他几个已知的问题)。您可以通过使用Get Pages并准备一个包含要存储的页面链接的csv文件来复制其功能。由于页面链接似乎遵循常规模式,您可以使用Excel甚至使用RapidMiner轻松创建这样的列表。这应该使您能够存储您想要的数据(同时假设它没有违反该站点的使用条款)。7
答案