Question

我正在尝试读取制表符分隔的文件，以便我可以逐行处理它。一行中的一些分隔字段可能是非常长的字符串，包含带有HTML标签和其他特殊字符的文本，例如：

"String1"  "String2"  "<p>This should</p>
<p>be read as one</p>
<p>string.</p>"
"String4"   "String5"   "String6"

我得到的是：

"String1"  "String2"  "<p>This should</p>"
"<p>be read as one</p>"
"<p>string.</p>"
"String4"   "String5"   "String6"

即。第三个字符串被拆分。

我正在尝试使用Python csv阅读器阅读tsv文件，并尝试了多种方言设置，但没有想出来：

with open(fileName, 'rb') as tsvHandle:
    tsvHandle = csv.reader(tsvHandle, delimiter='\t', quotechar='"', escapechar='\\', skipinitialspace)

有人可以建议做什么吗？

Answer 1

尝试使用： tsvHandle = csv.reader（tsvHandle，delimiter ='\ t'，quoting = csv.QUOTE_ALL，quotechar ='“'）