Textpipe:在两个标签之间提取文本

时间:2011-11-17 15:42:53

标签: html text tags extraction

我不能为我的生活找出如何使用 TextPipe 完成此任务。

TASK:

提取(剪切)此TEXT 包括开始和结束标记,并获取仅包含这些标记及其间文本的文件。

<div><div class="article">`TEXT`<span id="contentBottomLeft"></span>

我定义了一个带有结束标记和开始标记的限制过滤器,但下一步是什么?这个过滤器需要一个子过滤器,我不明白接下来需要使用什么样的过滤器以及如何定制它。我需要为数千个HTML文件重复这个提取过程。

专门针对 TextPipe 的步骤将会受到极大的影响,因为我自己并不是一个程序员。

2 个答案:

答案 0 :(得分:5)

使用TextPipe非常简单,BTW非常棒。

添加perl搜索和替换模式过滤器,搜索文本为:

<div><div class="article">[^<]*<span id="contentBottomLeft"></span>
  • 这里,TEXT可以是除'&lt;'之外的任何字符 - 这使得模式更快。<​​/ li>

将替换文字设置为:

$0\r\n

然后,只需检查搜索/替换过滤器的“提取匹配”选项。

最后,在输出过滤器中,使用'单个文件输出'到目标文件名。

答案 1 :(得分:2)

如果没有您自己的任何进一步帮助,我只能猜测您要删除所有&lt; div&gt;第一个孩子是另一个孩子的元素&lt; div&gt; class属性等于“article”的元素。

快速查看TextPipe documentation后,看起来它不会执行任何类似XPath表达式的操作,但您应该尝试使用Restrict to between tags过滤器和Remove All子过滤器。

请记住,TextPipe可能无法执行您想要的操作,您可能需要寻找其他解决方案。