我正在尝试在python中解析pdf并在引号中提取字符串。我能够在引号中提取文本但我还想在引用开始之前提取名称。 例如: 考虑一下这个
Ziblatt,Daniel。 “重新思考联邦制的起源:来自19世纪欧洲的谜题,理论和证据”,
我能够提取所有引文,但我也希望提取名称。 这是我正在使用的代码..请帮忙
def quotes(x):
quoted = re.compile('"[^"]*"')
for value in quoted.findall(x):
print value
答案 0 :(得分:1)
在双引号之前捕获数据应该有效:
def quotes(x):
quoted = re.compile('(.+)"[^"]+"')
for value in quoted.findall(x):
print value.strip()
我得到了这个输出:
>>> quotes(text)
'Ziblatt, Daniel. 2004.'