在引号

时间:2016-09-06 17:35:26

标签: python extract quotes

我正在尝试在python中解析pdf并在引号中提取字符串。我能够在引号中提取文本但我还想在引用开始之前提取名称。 例如: 考虑一下这个

Ziblatt,Daniel。 “重新思考联邦制的起源:来自19世纪欧洲的谜题,理论和证据”,

我能够提取所有引文,但我也希望提取名称。 这是我正在使用的代码..请帮忙

def quotes(x):
    quoted = re.compile('"[^"]*"')
    for value in quoted.findall(x):
        print value 

1 个答案:

答案 0 :(得分:1)

在双引号之前捕获数据应该有效:

def quotes(x):
    quoted = re.compile('(.+)"[^"]+"')
    for value in quoted.findall(x):
        print value.strip()

我得到了这个输出:

>>> quotes(text)
'Ziblatt, Daniel. 2004.'