Question

以下是代码：

<div>23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>

我想刮掉三行

23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>

分成不同的列。通过将<div>设置为前标记并将<br />设置为后标记，我可以刮掉第一个字符串（23 Anywhere Ave）。之后卡住了。我已经尝试将前标记设置为<div>(?=)<br />)，/<div>(?=)<br />)/（在制作正则表达式语句时显然需要/ /）和<div>/(?=)/<br />)以获得第二个值但没有运气。

我意识到正则表达式不适合解析HTML，但this post表示在Outwit架构中的某些上下文中它是正常的。

Answer 1

在automators / scrapers中放置这个分隔符：br 然后在标签列表：街道，城市，ZipCode

BR，尤西比奥。

Outwit Hub - 标记和前瞻可能吗？

1 个答案: