如何使用正则表达式提取信息页面

时间:2015-07-10 04:46:41

标签: python regex web-scraping

我无法捕捉" name"的内容:他经常出现在" pluralName"其他以后。有什么更好的方法呢? (在性能方面最好的方式)。谢谢你的帮助!

注意:我正在使用python

包含我需要的信息的页面块:

java.util.Date

2 个答案:

答案 0 :(得分:1)

(?:"pluralName":"[^"]*","name":"([^"]*))|(?:"name":"([^"]*)","pluralName")

使用re.findall尝试此操作。请参阅演示。

https://regex101.com/r/hR7tH4/4

print re.findall(r'(?:"pluralName":"[^"]*","name":"([^"]*))|(?:"name":"([^"]*)","pluralName")',test_str)

答案 1 :(得分:1)

根本不要使用正则表达式。

而是使用JSON解析器,并访问生成的对象。这更加强大。

import json # part of python
o = json.loads(str)