我可以使用Portia网页抓取工具对网页进行注释,我的问题是如何在提取数据时使用正则表达式。
例如,
我从页面中提取了位置
输出看起来像,
位置:位置xyz,abc
但我只需要xyz,abc值。
我已经google了解决方案,但没有获得更多信息。
你能解释一下Portia scrapy中的正则表达式吗?
答案 0 :(得分:4)
在这种情况下,您需要使用捕获组来提取数据:
Location: (.*)
这告诉portia提取Location:
字符串后面的所有数据。
例如,如果您只想提取Location:
和,
之间的所有数据,则可以使用以下内容:
Location: (.*),
您还可以在捕获组中放置信息,以便提取包括您的模式在内的所有数据。