用双引号替换所有连续的单引号对

时间:2015-08-15 16:18:49

标签: python regex string nlp

我正在尝试用双引号替换所有连续的单引号对。

代码:

<head lang="en">
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width; maximum-scale=1; minimum-scale=1;" />
<meta name="viewport" content="width=device width">
<title>Bruin Bash 2015</title>
<link rel="icon" href="images/BB-FAVICON.jpg"/>
<link rel="stylesheet" href="css/flipclock.css"/>
<link rel="stylesheet" href="css/bootstrap.min.css"/>
<link rel="stylesheet" href="css/styles.css" />

但这似乎不起作用。

背景: 我正在使用Goose从存储的.html文件中提取文章文本。

text.replace('\'\'','\"')

这篇文章是str中的unicode和text。我正在使用Python 2。 我尝试打印文本。

article = extractor.extract(raw_html=html) #extracts content text = (unidecode(article.cleaned_text)) #changes encoding

输出:

print text

而不是

''Several people were crushed or trampled to death,'' the police said in a statement.

这对我来说有点混乱。如果它是第二种格式,我的代码将起作用。即使引号不在\'\'Several people were crushed or trampled to death,\'\' the police said in a statement. 之前,我也不明白字符串是如何存储的。

1 个答案:

答案 0 :(得分:4)

使用operator+

这是有效的,因为双引号字符串不需要转义。