Question

我有一个带有内容的html文件我无法使用BeautifulSoup轻松提取，因为我认为它是用Javascript加载的。

..."inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"...

我在此文件中有多个名称，我想提取。那些名字就在“lNameP”之后。有没有办法做一个循环来获取所有这些名称（在这种情况下，我想得到MYNAME）？

非常感谢，

Answer 1

使用正则表达式？

import re
pattern = re.compile('\"(lNameP)\"\:\"(.*?)\"')
result = pattern.findall(string)

result[0][0]是关键，result[0][1]是值。

Answer 2

此regex代码将完全符合您的需求：

string ='"inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"'
import re
pattern = re.compile('\"lNameP"\:"(.*?)"')
match = pattern.search(string).group(1)
print (match)

输出：

MYNAME

使用python从文本文件中提取单词

2 个答案: