解析json数据时文本编码错误

时间:2012-08-08 11:04:19

标签: linux json parsing shell curl

我正在卷曲一个网站并将其写入.json文件;这个文件输入到我的java代码中,该代码使用json库对其进行解析,并将必要的数据写回CSV文件中,稍后我将其用于将其存储在数据库中。

如您所知,来自网站的数据可能采用不同的格式,因此我确保以UTF-8格式读写,但输出错误仍然存​​在。

例如,Østerriksk变为�sterriksk

我在Linux中正在做这一切。我认为存在一些编码问题,因为相同的代码在Windows中运行良好,但在Unix / Linux中运行不正确。

我很确定我的java代码是正确的,但我无法找出我做错了什么。

2 个答案:

答案 0 :(得分:0)

您使用的是哪种IDE,例如,如果您使用的是Eclipse IDE,并且未在属性中将默认编码设置为utf-8,则可能会发生这种情况。

答案 1 :(得分:0)

您正在将数据读取为ISO 8859-1,但该文件实际上是UTF-8。我认为应该解决这个问题的文件阅读器有一个参数(或设置)。

另外:curl不会关心编码。这在你的Java代码中确实是错误的。