Question

这是我第一次在这里发帖提问，但我没有想法。

我继承了一个非常大的数据集，我想将其转移到MongoDB。在其最简单的集合中，它看起来像这样：

for (Character c : str.toCharArray()) {
    if (c > 127) //character is invalid
        Log.d("TAG","Character " + c + " is invalid");
}

在使用Notepad ++将msv从UCS-2转换为UTF-8后，我做了一个csv-mongoimport（mongoimport没有接受UCS-2）。

如果我通过＆＃34; Other_ID＆＃34;查询，我得到了我想要的东西：

{
    "_id" : ObjectId("57fe2d5d666d9be427d89017"),
    "A_ID" : 1234234,
    "Other_ID" : 1234
}

如果我通过B_ID查询，我得不到我的期望：

db.getCollection('...').count({Other_ID: 1234})
-> 26611

但如果我这样做：

db.getCollection('...').count({A_ID: 1234})
-> 0

我们注意到charset是不同的 - Webstorm中的加载显示了差异，Notepad ++刚开始表现出奇怪的行为（更改字体在文件中，在用光标移动文本时更改字体，...）

因此，如果我复制并粘贴A_ID并再次执行相同的查询，则可以：

db.getCollection('...').count({A_ID: null})
-> 450124

我想告诉全世界，我无法找到与此相关的任何内容 - 还有一个问题 - 如何将我的字段条目规范化为ASCII？我是否必须找到这些字段并用脚本手动替换它们？什么是找到这些领域的可靠方法？