“动态网页抓取Tripadvisor”

Domi007Domi007 成员职位:2贡献我
2019年6月编辑 帮助
大家好,

我在试着从tripadvisor上获取评论来做情感分析。管用,但不是我想要的方式。

这里是我的代码如何获取html页面。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 6.4.000 " >
> <上下文
<输入/ >
< >输出
< >位置. . / . . /数据/ Html-Pages-Tripadvisor > < /位置
< / >输出
<宏/ >
> < /上下文


<过程扩展= " true " >



这个宏定义了Are中每个酒店获取的最大页面数。
< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d2400688-r154089743-STF_Hotel_Are_Torg-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d678441-r127124263-Are_Continental_Inn-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d486763-r153044193-Tott_Hotel_Are-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d565631-r137349978-Fjallgarden_Hotel-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d1157031-r148521338-Hotel_Diplomat_Aregarden-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d1016233-r152160882-Holiday_Club_Are-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>

http://www.tripadvisor.co.uk/ShowUserReviews-g670155-d1236656-r153179437-Copperhill_Mountain_Lodge-Are_Jamtland_County_Jamtland_and_Harjedalen.html#CHECK_RATES_CONT" / >
<列出关键= " crawling_rules " >


< / >列表








< /操作符>



< /操作符>













> < /过程
< /操作符>
> < /过程
在那里,我有很多我想要获得评论的酒店的网络抓取运营商。爬行规则需要某个酒店的最新评论。

我希望有一个更有活力的过程,我不必关心某个城市的每家酒店。我希望有一个流程,在第一步,我能得到所有可用的酒店,更重要的是,得到一个城市所有酒店的评论。

这个过程只是展示了如何获取html页面。

谢谢你的帮助!

杜米尼克
标记:
    登录注册置评。