无法访问printjson可见的文档字段

时间:2016-10-13 06:00:01

标签: mongodb

这是我第一次在这里发帖提问,但我没有想法。

我继承了一个非常大的数据集,我想将其转移到MongoDB。 在其最简单的集合中,它看起来像这样:

for (Character c : str.toCharArray()) {
    if (c > 127) //character is invalid
        Log.d("TAG","Character " + c + " is invalid");
}

在使用Notepad ++将msv从UCS-2转换为UTF-8后,我做了一个csv-mongoimport(mongoimport没有接受UCS-2)。

如果我通过" Other_ID"查询,我得到了我想要的东西:

{
    "_id" : ObjectId("57fe2d5d666d9be427d89017"),
    "A_ID" : 1234234,
    "Other_ID" : 1234
}

如果我通过B_ID查询,我得不到我的期望:

db.getCollection('...').count({Other_ID: 1234})
-> 26611

但如果我这样做:

db.getCollection('...').count({A_ID: 1234})
-> 0

我们注意到charset是不同的 - Webstorm中的加载显示了差异,Notepad ++刚开始表现出奇怪的行为(更改字体在文件中,在用光标移动文本时更改字体,...)

因此,如果我复制并粘贴A_ID并再次执行相同的查询,则可以:

db.getCollection('...').count({A_ID: null})
-> 450124

我想告诉全世界,我无法找到与此相关的任何内容 - 还有一个问题 - 如何将我的字段条目规范化为ASCII? 我是否必须找到这些字段并用脚本手动替换它们?什么是找到这些领域的可靠方法?

0 个答案:

没有答案