Question

我不能为我的生活找出如何使用 TextPipe 完成此任务。

TASK：

提取（剪切）此TEXT 包括开始和结束标记，并获取仅包含这些标记及其间文本的文件。

<div><div class="article">`TEXT`<span id="contentBottomLeft"></span>

我定义了一个带有结束标记和开始标记的限制过滤器，但下一步是什么？这个过滤器需要一个子过滤器，我不明白接下来需要使用什么样的过滤器以及如何定制它。我需要为数千个HTML文件重复这个提取过程。

专门针对 TextPipe 的步骤将会受到极大的影响，因为我自己并不是一个程序员。

Answer 1

使用TextPipe非常简单，BTW非常棒。

添加perl搜索和替换模式过滤器，搜索文本为：

<div><div class="article">[^<]*<span id="contentBottomLeft"></span>

将替换文字设置为：

$0\r\n

然后，只需检查搜索/替换过滤器的“提取匹配”选项。

最后，在输出过滤器中，使用'单个文件输出'到目标文件名。

Answer 2

如果没有您自己的任何进一步帮助，我只能猜测您要删除所有＆lt; div＆gt;第一个孩子是另一个孩子的元素＆lt; div＆gt; class属性等于“article”的元素。

快速查看TextPipe documentation后，看起来它不会执行任何类似XPath表达式的操作，但您应该尝试使用Restrict to between tags过滤器和Remove All子过滤器。

请记住，TextPipe可能无法执行您想要的操作，您可能需要寻找其他解决方案。