我有一个带有内容的html文件我无法使用BeautifulSoup轻松提取,因为我认为它是用Javascript加载的。
..."inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"...
我在此文件中有多个名称,我想提取。那些名字就在“lNameP”之后。有没有办法做一个循环来获取所有这些名称(在这种情况下,我想得到MYNAME)?
非常感谢,
答案 0 :(得分:0)
使用正则表达式?
import re
pattern = re.compile('\"(lNameP)\"\:\"(.*?)\"')
result = pattern.findall(string)
result[0][0]
是关键,result[0][1]
是值。
答案 1 :(得分:0)
此regex代码将完全符合您的需求:
string ='"inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"'
import re
pattern = re.compile('\"lNameP"\:"(.*?)"')
match = pattern.search(string).group(1)
print (match)
输出:
MYNAME