以下是代码:
<div>23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>
我想刮掉三行
23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>
分成不同的列。通过将<div>
设置为前标记并将<br />
设置为后标记,我可以刮掉第一个字符串(23 Anywhere Ave)。
之后卡住了。我已经尝试将前标记设置为<div>(?=)<br />)
,/<div>(?=)<br />)/
(在制作正则表达式语句时显然需要/ /)和<div>/(?=)/<br />)
以获得第二个值但没有运气。
我意识到正则表达式不适合解析HTML,但this post表示在Outwit架构中的某些上下文中它是正常的。
答案 0 :(得分:0)
在automators / scrapers中放置这个分隔符:br 然后在标签列表:街道,城市,ZipCode
BR, 尤西比奥。