如何从web收获中的字符串中减去子字符串

时间:2013-09-18 07:50:57

标签: java javascript web-scraping screen-scraping webharvest

我是webharvest的新手,正在使用它从网站上获取文章数据,使用以下声明:

let $text := data($doc//div[@id="articleBody"])

这是我从上述声明中得到的数据:

The Refine Spa (Furman's Mill) was built as a stone grist mill along the on a tributary of Capoolong Creek by Moore Furman, quartermaster general of George Washington's army

Notable people

Notable current and former residents of Pittstown include:

我的问题是,是否可以从另一个字符串中减去一个字符串 在上面的例子中:来自内容的“着名人物”。

有可能这样做吗?如果有可能请告诉我如何。谢谢。 有什么我可以做的事情:

if (*contains*($text, 'Notable people')) then $text := *minus*($text, 'Notable people') 

contains 是一个示例函数名,用于确定字符串是另一个的子字符串,  和 minus 是从另一个

中删除子字符串的示例函数名称

所需的输出:

The Refine Spa (Furman's Mill) was built as a stone grist mill along the on a tributary of Capoolong Creek by Moore Furman, quartermaster general of George Washington's army

Notable current and former residents of Pittstown include:

1 个答案:

答案 0 :(得分:1)

来自http://web-harvest.sourceforge.net/manual.php

  

的regexp

     

在正文中搜索给定的正则表达式,并可选择用指定的模式替换找到的匹配项。   如果body是值列表,则regexp处理器将应用于每个项目,最终执行结果为列表。

您只需使用正确的正则表达式regexp-pattern并更正regexp-result