CSV编写需要唯一分隔符的文本字符串

时间:2014-02-25 00:05:57

标签: python csv delimiter openoffice-calc

我在python中编写了一个HTML解析器,用于在csv文件中提取数据:

    itemA, itemB, itemC, Sentence that might contain commas, or colons: like this,\n

所以我用了一个delmiter“:::::”认为它不会在数据中挖掘

    itemA, itemB, itemC, ::::: Sentence that might contain commas, or colons: like this,::::\n

这适用于数千行中的大多数行,但是,显然是冒号:当我在Calc中导入csv时抵消了这一点。

我的问题是,在创建具有许多句子变体的csv时需要使用某个分隔符分隔的最佳或唯一分隔符是什么?我是否正确理解分隔符,因为它们将CSV中的值分开?

3 个答案:

答案 0 :(得分:2)

是的,分隔符将CSV文件的每一行中的值分开。分隔具有大量标点符号的文本有两种策略。首先,您可以引用这些值,例如:

Value 1, Value 2, "This value has a comma, <- right there", Value 4

第二种策略是使用制表符(即'\t')。

Python的内置CSV模块可以读取和写入使用引号的CSV文件。查看the csv.reader function下的示例代码。内置的csv模块将正确处理引号,例如它将逃避值本身的引号。

答案 1 :(得分:1)

正如我在评论中非正式地提出的,唯一意味着您需要使用一些不在数据中的字符 - chr(255)可能是一个不错的选择。例如:

import csv

DELIMITER = chr(255)
data = ["itemA", "itemB", "itemC",
        "Sentence that might contain commas, colons: or even \"quotes\"."]

with open('data.csv', 'wb') as outfile:
    writer = csv.writer(outfile, delimiter=DELIMITER)
    writer.writerow(data)

with open('data.csv', 'rb') as infile:
    reader = csv.reader(infile, delimiter=DELIMITER)
    for row in reader:
        print row

输出:

 ['itemA', 'itemB', 'itemC', 'Sentence that might contain commas, colons: or even "quotes".']

如果你没有使用csv模块,而是手动编写和/或读取数据,那么它将是这样的:

with open('data.csv', 'wb') as outfile:
    outfile.write(DELIMITER.join(data) + '\n')

with open('data.csv', 'rb') as infile:
    row = infile.readline().rstrip().split(DELIMITER)
    print row

答案 2 :(得分:0)

CSV文件通常使用双引号"来包装可能包含字段分隔符的长字段,如逗号。如果该字段包含双引号,则使用反斜杠进行转义:\"