"web挖掘-用其他属性的值替换HTML标签元素"

d1m0sd1m0s 成员职位:17Maven
2019年5月编辑 帮助
嗨,伙计们,我正面临着以下问题:我有一组多个国家的网页,一个页面-一个国家-一个HTML表与一些数据,我需要提取。

我检索网页为我的URL列表,从这些页面提取表,之后我需要替换“”标签在HTML属性with "
" +国家名称from国家属性+ " < /标题>”……我被困在这里了我使用替换操作符。

我怎么能取代一个文本片段从一个属性与另一个属性的值?这似乎是一个微不足道的任务,我没能找到一个方法去做。

提前感谢您的帮助。

图像
图像
标记:

答案

  • awchisholmawchisholm RapidMiner认证专家、会员职位:458独角兽
    你好

    由于一个奇怪的巧合,我不得不做一些类似的事情,我甚至写了一些笔记来帮助我以后记住……

    http://rapidminernotes.blogspot.com/2011/07/using-regular-expressions-with-replace.html

    问候

    安德鲁
  • 科罗拉多州科罗拉多州 成员职位:236Maven
    你好,

    您可以使用宏系统来解决此任务。使用"Loop Examples"逐行执行替换,并将以下操作符放入其中:

    “提取宏”,宏类型为data_value,并在索引%{example}处从属性国家中提取(这是循环的默认计数宏)。然后将“Replace”操作符添加到循环中。对于“replace by”字符串,您可以使用之前由%{macro_name}提取的宏。

    还有一点:小心使用]+> -这将只工作,如果表有空白或一些属性后面的元素的名称。将不会检测到普通的。也许最好用星号代替。

    问候
    马蒂亚斯
  • d1m0sd1m0s 成员职位:17Maven
  • 科罗拉多州写道:

    你好,

    您可以使用宏系统来解决此任务。使用"Loop Examples"逐行执行替换,并将以下操作符放入其中:

    “提取宏”,宏类型为data_value,并在索引%{example}处从属性国家中提取(这是循环的默认计数宏)。然后将“Replace”操作符添加到循环中。对于“replace by”字符串,您可以使用之前由%{macro_name}提取的宏。

    还有一点:小心使用]+> -这将只工作,如果表有空白或一些属性后面的元素的名称。将不会检测到普通的。也许最好用星号代替。

    问候
    马蒂亚斯
    嗨,Matthias,谢谢你的帮助。出问题了。宏从我的Country属性中获取第一个示例的值,并将其应用于所有示例。我所有的桌子都标着阿富汗。

    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <过程version = " 5.1.006 " >
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文






    <列出关键= "注释" >

    < / >列表
    <列出关键= " data_set_meta_data_information " >


    < / >列表
    < /操作符>



    < /操作符>



    < /操作符>








    < /操作符>





    < /操作符>






    > < /过程
    < /操作符>







    > < /过程
    < /操作符>
    > < /过程
  • d1m0sd1m0s 成员职位:17Maven
    awchisholm写道:

    你好

    由于一个奇怪的巧合,我不得不做一些类似的事情,我甚至写了一些笔记来帮助我以后记住……

    http://rapidminernotes.blogspot.com/2011/07/using-regular-expressions-with-replace.html

    问候

    安德鲁
    谢谢安德鲁,我现在试试你的方法
  • d1m0sd1m0s 成员职位:17Maven
    生成属性操作符完成了工作…感谢大家的想法
  • 登录注册置评。