我试图在中等大小的数据文件(15M行)中对一列进行求和,但是我收到以下错误:
$> q -Ht 'select sum(value) from datafile.txt'
Error('field larger than field limit (131072)'
我的搜索导致链接建议在csv.fieldsize()的python解析中更改默认字段大小,但是在使用awk检查后我确认我的文件没有大字段。
答案 0 :(得分:0)
永远不会忘记:在处理之前清理您的数据
我发现我的数据文件中包含带有单引号和双引号的产品名称(占有名称的单引号,以及表示' inches'的双引号。这会导致python解析器将分隔符读作字面值该领域内的人物。
这样做:
sed s:\"::g data.txt > tmp ; sed s:\'::g tmp > data.txt
数据中可怕的单引号/双引号。