“挖掘在线评论进行情感分析”

janjanjanjan 成员职位:1贡献我
2019年6月编辑 帮助
我试图从亚马逊获取关于特定产品的评论,以便通过应用分类模型来预测积极或消极的态度来进行情感分析。两个问题:

1)关于获取数据:你如何将抓取限制在评论范围内?该产品的评论长达几页,每个页面的链接是这样的:
http://www.amazon.com/Rainbow-Loom-Twistz-Bandz/product-reviews/B00DMC6KAC/ref=cm_cr_pr_btm_link_2?ie=UTF8&, sortby = byRankDescending pageNumber = 2 &showviewpoints = 0

…当然,链接中的pageNumber编号会根据页码而变化。我只想抓取这些页面,但每个评论页面都有大量的其他链接,例如到亚马逊网站,到在线广告等。是否有一个字符(如*),我可以用它来代替页码,以指定我只想抓取这些链接?

2)如何将单个评论(一个页面上的几个评论)放入其自己的文本文档中(或者可能是数据库记录中的自己的字段),以便对其进行分类?
标记:

答案

  • MariusHelfMariusHelf RapidMiner认证专家、会员职位:1869年独角兽
    你好,

    我猜您正在使用抓取Web操作符来抓取页面。该操作符支持爬行规则中的正则表达式。你可以在网上找到大量关于正则表达式的文档。任意数量的数字的通配符是\d+ (\d =一个数字,+表示一个或多个数字)。

    要拆分评论,一种选择是在抓取的页面上使用Process Documents,并使用split Documents将整个站点拆分为单个评论。

    最好的问候,
    马吕斯
  • sourabhchoudharsourabhchoudhar 成员职位:6贡献我
    嗨,马吕斯

    我想获得去年的新闻从网络使用爬行网络运营商。我正在使用网页抓取,但它提供的结果是几个月前的,即使我增加了深度,但仍然。你能指导我如何完善我的搜索,以获得最好的历史数据从网站?

    谢谢
    Sourabh Choudhary
  • MariusHelfMariusHelf RapidMiner认证专家、会员职位:1869年独角兽
    嗨Sourabh,

    这完全取决于网站——你必须定义正确的抓取规则,也许在检索文档之后结合过滤器。
    不幸的是,没有一个通用的规则,你必须仔细研究网站的结构。

    最好的问候,
    马吕斯
  • sourabhchoudharsourabhchoudhar 成员职位:6贡献我
    嗨,马吕斯,

    谢谢你的建议。我正在尝试过滤器与爬行规则的组合。尽快我将能够做我想要的,我会在论坛上分享。


    问候

    Sourabh
  • sourabhchoudharsourabhchoudhar 成员职位:6贡献我
    嗨,马吕斯

    我想搜索有关特定的关键字或关键名称在网络(社交媒体和论坛,博客,搜索引擎,新闻网站,新闻博客等)使用Rapidminer相关的有价值的信息。请帮帮我,我该怎么做?

    谢谢

    Sourabh
登录注册置评。