DBF - 编码cp1250

时间:2015-07-07 13:48:52

标签: python database encoding anaconda dbf

我在cp1250中编码了dbf数据库,我正在使用以下代码读取此数据库:

import csv
from dbfpy import dbf
import os
import sys

filename = sys.argv[1]
if filename.endswith('.dbf'):
    print "Converting %s to csv" % filename
    csv_fn = filename[:-4]+ ".csv"
    with open(csv_fn,'wb') as csvfile:
        in_db = dbf.Dbf(filename)
        out_csv = csv.writer(csvfile)
        names = []
        for field in in_db.header.fields:
            names.append(field.name)
        #out_csv.writerow(names)
        for rec in in_db:
            out_csv.writerow(rec.fieldData)
        in_db.close()
        print "Done..."
else:
  print "Filename does not end with .dbf"

问题是,最终的csv文件是错误的。该文件的编码是ANSI,并且某些字符已损坏。我想问你,如果你能帮我解释如何正确读取dbf文件。

编辑1

我尝试了https://pypi.python.org/pypi/simpledbf/0.2.4的不同代码,但有一些错误。

来源2:

from simpledbf import Dbf5
import os
import sys

dbf = Dbf5('test.dbf', codec='cp1250');
dbf.to_csv('junk.csv');

输出:

python program2.py
Traceback (most recent call last):
  File "program2.py", line 5, in <module>
    dbf = Dbf5('test.dbf', codec='cp1250');
  File "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py",      line 557, in __init__
    assert terminator == b'\r'

的AssertionError

我真的不知道如何解决这个问题。

3 个答案:

答案 0 :(得分:4)

尝试使用my dbf library

import dbf
with dbf.Table('test.dbf') as table:
    dbf.export(table, 'junk.csv')

答案 1 :(得分:3)

我写了simpledbf。导致问题的原因是我在开发模块时正在进行的一些测试。首先,您可能希望更新安装,因为0.2.6是最新的。然后,您可以尝试从文件“D:\ ProgramFiles \ Anaconda \ lib \ site-packages \ simpledbf \ simpledbf.py”中删除该特定行(#557)。如果这不起作用,你可以在GitHub repo for simpledbf ping我,或者你可以尝试Ethan对dbf模块的建议。

答案 2 :(得分:0)

您可以根据需要进行解码和编码。 dbfpy假定字符串utf8已编码,因此您可以解码,因为它不是那种编码,然后使用正确的编码再次编码。

import csv
from dbfpy import dbf
import os
import sys

filename = sys.argv[1]
if filename.endswith('.dbf'):
    print "Converting %s to csv" % filename
    csv_fn = filename[:-4]+ ".csv"
    with open(csv_fn,'wb') as csvfile:
        in_db = dbf.Dbf(filename)
        out_csv = csv.writer(csvfile)
        names = []
        for field in in_db.header.fields:
            names.append(field.name)
        #out_csv.writerow(names)
        for rec in in_db:
            row = [i.decode('utf8').encode('cp1250') if isinstance(i, str) else i for i in rec.fieldData]
            out_csv.writerow(rec.fieldData)
        in_db.close()
        print "Done..."
else:
  print "Filename does not end with .dbf"