阅读Excel表300+ url和获取页面信息

Naveen_VimalanNaveen_Vimalan 成员职位:3.新手
我想在我的Excel表格中获取url的响应代码、响应消息、内容类型等信息。我使用-读取Excel ->存储->处理异常(获取页面)->存储-作为我的过程链。由于某种原因,我只得到URL作为我的结果,而不是我想要的所有信息。希望有人能帮忙。

这是准则:
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
.
.
<过程扩展= " true " >
.
.
.
<列出关键= "注释" / >
.
.
<列出关键= " data_set_meta_data_information " >
/> .
< /操作符>
.
< /操作符>
<过程扩展= " true " >
.
.
< /操作符>
/> .
.
.
> < /过程
<过程扩展= " true " >
.
.
> < /过程
< /操作符>
.
< /操作符>
/> . .
.
> < /过程
< /操作符>
> < /过程

最佳答案

答案

  • ceaperezceaperez 成员职位:367独角兽
    2021年4月编辑
    @Naveen_Vimalan

    请阅读这篇关于网页操作符的有趣文章

    网络连接获取页面-操作员- RapidMiner社区

    我附上了一个简单的处理过程,请尝试一下,

    最好的


  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家
    2021年4月编辑
    @Naveen_Vimalan

    你发布的流程是坏的。您是否能够附加excel文件或流程文件(.rmp)?我已经建立了一些网络抓取和网络挖掘过程,以获得来自yelp, G2等的评论。附件是用于存储HTML网页作为第一步。

    HTH !
    YY

    见鬼
  • Naveen_VimalanNaveen_Vimalan 成员职位:3.新手
    @yyhuang
    我在下面附上了excel和。rmp文件。我还添加了一张我想要达到的300+ url的结果的图片,而不是屏幕截图中显示的4个结果。

    最好的问候,
    纳文
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家
    您是否能够导入我共享的流程?@Naveen_Vimalan

    一般来说,get page比“get pages”更好。
  • Naveen_VimalanNaveen_Vimalan 成员职位:3.新手
    好的,谢谢你的回答,但是是否可以使用Operator Read Excel,或者在你发给我的过程中我应该把Excel文件放在哪里。
登录注册置评。