我不能为我的生活找出如何使用 TextPipe 完成此任务。
TASK:
提取(剪切)此TEXT 包括开始和结束标记,并获取仅包含这些标记及其间文本的文件。
<div><div class="article">`TEXT`<span id="contentBottomLeft"></span>
我定义了一个带有结束标记和开始标记的限制过滤器,但下一步是什么?这个过滤器需要一个子过滤器,我不明白接下来需要使用什么样的过滤器以及如何定制它。我需要为数千个HTML文件重复这个提取过程。
专门针对 TextPipe 的步骤将会受到极大的影响,因为我自己并不是一个程序员。
答案 0 :(得分:5)
使用TextPipe非常简单,BTW非常棒。
添加perl搜索和替换模式过滤器,搜索文本为:
<div><div class="article">[^<]*<span id="contentBottomLeft"></span>
将替换文字设置为:
$0\r\n
然后,只需检查搜索/替换过滤器的“提取匹配”选项。
最后,在输出过滤器中,使用'单个文件输出'到目标文件名。
答案 1 :(得分:2)
如果没有您自己的任何进一步帮助,我只能猜测您要删除所有&lt; div&gt;第一个孩子是另一个孩子的元素&lt; div&gt; class属性等于“article”的元素。
快速查看TextPipe documentation后,看起来它不会执行任何类似XPath表达式的操作,但您应该尝试使用Restrict to between tags
过滤器和Remove All
子过滤器。
请记住,TextPipe可能无法执行您想要的操作,您可能需要寻找其他解决方案。