我正在尝试使用mongoimport将巨大的(~831M)文件插入到mongo集合中
/Library/mongodb/bin/mongoimport --port 12345 -d staging -c collection < out.all.1
并看到一些错误,如
exception:Failure parsing JSON string near: , 'Custome
并且在某些情况下我发现了一些奇怪的字符
'CustomerCity': u'Wall \xa0'
'CustomerCity': u'La Ca\xc3\xb1ada Flintridge'
'CustomerCity': u'La Ca\xf1ada Flintridge'
如何解决这些问题?
谢谢
答案 0 :(得分:0)
我遇到了类似的问题,其中mongoimport在我要求它导入的平面文件中给出了关于非UTF8字符的错误。这个google groups thread让我尝试将我的源数据文件通过iconv放在unix命令行上来“纠正”非UTF-8字符,因此:
iconv -f ISO-8859-1 -t UTF-8 inputfile.txt > outputfile.txt
这解决了我的问题。我想知道这种方法对你有帮助吗?虽然您看到的错误是不同的,但是奇怪的字符会搞乱JSON解析,不是吗?
然而,人们不禁要问,如果您自己生成这些奇怪的字符,那么这些奇怪的字符是如何在输出数据中结束的。也许您可以过滤生成输出的代码?