这是我第一次在这里发帖提问,但我没有想法。
我继承了一个非常大的数据集,我想将其转移到MongoDB。 在其最简单的集合中,它看起来像这样:
for (Character c : str.toCharArray()) {
if (c > 127) //character is invalid
Log.d("TAG","Character " + c + " is invalid");
}
在使用Notepad ++将msv从UCS-2转换为UTF-8后,我做了一个csv-mongoimport(mongoimport没有接受UCS-2)。
如果我通过" Other_ID"查询,我得到了我想要的东西:
{
"_id" : ObjectId("57fe2d5d666d9be427d89017"),
"A_ID" : 1234234,
"Other_ID" : 1234
}
如果我通过B_ID查询,我得不到我的期望:
db.getCollection('...').count({Other_ID: 1234})
-> 26611
但如果我这样做:
db.getCollection('...').count({A_ID: 1234})
-> 0
我们注意到charset是不同的 - Webstorm中的加载显示了差异,Notepad ++刚开始表现出奇怪的行为(更改字体在文件中,在用光标移动文本时更改字体,...)
因此,如果我复制并粘贴A_ID并再次执行相同的查询,则可以:
db.getCollection('...').count({A_ID: null})
-> 450124
我想告诉全世界,我无法找到与此相关的任何内容 - 还有一个问题 - 如何将我的字段条目规范化为ASCII? 我是否必须找到这些字段并用脚本手动替换它们?什么是找到这些领域的可靠方法?