如何在Portia视觉scrapy中使用正则表达式?

时间:2015-01-21 16:18:38

标签: python-2.7 web-crawler scrapy-spider portia

我可以使用Portia网页抓取工具对网页进行注释,我的问题是如何在提取数据时使用正则表达式。

例如,

我从页面中提取了位置

输出看起来像,

位置:位置xyz,abc

enter image description here

但我只需要xyz,abc值。

我已经google了解决方案,但没有获得更多信息。

你能解释一下Portia scrapy中的正则表达式吗?

1 个答案:

答案 0 :(得分:4)

在这种情况下,您需要使用捕获组来提取数据:

Location: (.*)

这告诉portia提取Location:字符串后面的所有数据。

例如,如果您只想提取Location:,之间的所有数据,则可以使用以下内容:

Location: (.*),

您还可以在捕获组中放置信息,以便提取包括您的模式在内的所有数据。