Outwit Hub - 标记和前瞻可能吗?

时间:2013-10-04 15:33:06

标签: regex parsing web-scraping

以下是代码:

<div>23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>

我想刮掉三行

23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>

分成不同的列。通过将<div>设置为前标记并将<br />设置为后标记,我可以刮掉第一个字符串(23 Anywhere Ave)。 之后卡住了。我已经尝试将前标记设置为<div>(?=)<br />)/<div>(?=)<br />)/(在制作正则表达式语句时显然需要/ /)和<div>/(?=)/<br />)以获得第二个值但没有运气。

我意识到正则表达式不适合解析HTML,但this post表示在Outwit架构中的某些上下文中它是正常的。

1 个答案:

答案 0 :(得分:0)

在automators / scrapers中放置这个分隔符:br 然后在标签列表:街道,城市,ZipCode

BR, 尤西比奥。