我正在尝试读取制表符分隔的文件,以便我可以逐行处理它。一行中的一些分隔字段可能是非常长的字符串,包含带有HTML标签和其他特殊字符的文本,例如:
"String1" "String2" "<p>This should</p>
<p>be read as one</p>
<p>string.</p>"
"String4" "String5" "String6"
我得到的是:
"String1" "String2" "<p>This should</p>"
"<p>be read as one</p>"
"<p>string.</p>"
"String4" "String5" "String6"
即。第三个字符串被拆分。
我正在尝试使用Python csv阅读器阅读tsv文件,并尝试了多种方言设置,但没有想出来:
with open(fileName, 'rb') as tsvHandle:
tsvHandle = csv.reader(tsvHandle, delimiter='\t', quotechar='"', escapechar='\\', skipinitialspace)
有人可以建议做什么吗?
答案 0 :(得分:0)
尝试使用: tsvHandle = csv.reader(tsvHandle,delimiter ='\ t',quoting = csv.QUOTE_ALL,quotechar ='“')