阅读Excel表300+ url和获取页面信息
Naveen_Vimalan
成员职位:3.新手
在帮助
我想在我的Excel表格中获取url的响应代码、响应消息、内容类型等信息。我使用-读取Excel ->存储->处理异常(获取页面)->存储-作为我的过程链。由于某种原因,我只得到URL作为我的结果,而不是我想要的所有信息。希望有人能帮忙。
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
这是准则:
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= "注释" / >
<列出关键= " data_set_meta_data_information " >
/> .
< /操作符>
< /操作符>
<过程扩展= " true " >
< /操作符>
/> .
> < /过程
<过程扩展= " true " >
> < /过程
< /操作符>
< /操作符>
/> . .
> < /过程
< /操作符>
> < /过程
0
最佳答案
-
yyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家嗨@Naveen_Vimalan,
我用你的excel作为URL链接的输入,得到了325个结果和8个错误(见所附的错误信息截图)。错误主要来自包含正则表达式的错误URL链接(为什么是正则表达式?)
处理与循环和获取页附供参考。
欢呼,
YY6
答案
请阅读这篇关于网页操作符的有趣文章
网络连接获取页面-操作员- RapidMiner社区
我附上了一个简单的处理过程,请尝试一下,
最好的
你发布的流程是坏的。您是否能够附加excel文件或流程文件(.rmp)?我已经建立了一些网络抓取和网络挖掘过程,以获得来自yelp, G2等的评论。附件是用于存储HTML网页作为第一步。
HTH !
YY
我在下面附上了excel和。rmp文件。我还添加了一张我想要达到的300+ url的结果的图片,而不是屏幕截图中显示的4个结果。
最好的问候,
纳文
一般来说,get page比“get pages”更好。