我在将json文件导入mongodb时遇到问题。
命令是:
mongoimport -d SNP -c cds_snp --file mainObjectUTF8.json --drop
错误是:
失败:错误处理文档6:寻找值开头的无效字符'S'。
即使我使用过也会发生这种情况(我知道US-ASCII应该已经是UTF-8,我只是不知道该怎么做):
iconv -f utf-8 -t US-ASCII -c mainObject.json > mainObjectUTF8.json
文件中的6h文档为:
{
"transcript_id": "AT1G01040.2",
"snp_id": "1.29757",
"transcript_start_ref": "23519",
"transcript_end_ref": "31079",
"ref_chr": "1",
"ref_pos": "29757",
"ref_nucleotid": "G",
"transcript_description": "dicer-like 1",
"snp_seq": "G -> A",
"genotypes": [10001],
"domain_id": [SSF52540],
"domain_description": [P-loop containing nucleoside triphosphate hydrolases],
"interpro_id": [NULL],
"interpro_description": [NUL]
}
当我删除domain_id和以下信息时,文件导入没有错误。所以问题似乎出在:
"domain_id": [SSF52540].
我还使用了其他几个控制台oneliners和python程序来尝试替换非UTF8部分。没有一个导致另一个mongodb错误。
我正在寻找解决导入问题的方法。