Question

我正在编写一个Python脚本来解析word文档并写入csv文件。但是，有些文档有一些utf-8字符，我的脚本无法正确处理。

花哨的引号经常出现（u'\ u201c'）。是否有一种快速简单（和智能）的方法来替换那些支持中性ascii的引号，所以我可以将line.encode('ascii')写入csv文件？

我试图找到左引号并替换它：

val = line.find(u'\u201c')
if val >= 0: line[val] = '"'

但无济于事：

TypeError: 'unicode' object does not support item assignment

我所描述的是一个好策略吗？或者我应该设置csv以支持utf-8（虽然我不确定将要读取CSV的应用程序是否需要utf-8）？

谢谢

Answer 1

您可以使用Unidecode package自动将所有Unicode字符转换为最接近的纯ASCII等效字符。

from unidecode import unidecode
line = unidecode(line)

这将处理双引号的方向以及单引号，破折号以及您可能尚未发现的其他内容。

Answer 2

您无法分配字符串，因为它们是不可变的，并且无法更改。

但是，您可以使用正则表达式库，这可能是最灵活的方法：

import re
newline = re.sub(u'\u201c','"',line)