Pentaho - CSV输入不理解特殊字符[Windows to Linux]

时间:2015-05-28 20:00:12

标签: linux pentaho transformation business-intelligence pdi

我对Pentaho数据集成进行了转换,我做的第一件事就是使用" CSV输入"映射我的平面文件。

我在Windows上从来没有遇到任何问题,但是现在我正在操作我的服务器,勺子将运行到Linux服务器,现在我遇到了特殊字符问题。

我注意到的第一件事是我的表格正在更新,因为系统将名称理解为与我数据库中的名称不同的字符串。

检查问题,我还注意到,如果我转到我的" CSV输入" - >预览,它将显示我的数据预览与上述问题:

Special characters are not showing

它应该在哪里:

Diretoria de Suporte à Decisão e Aplicação

我使用命令来检查我的文件字符集/编码,它显示:

$ file -bi foo.csv
text/plain; charset=iso-8859-1

如果我在vi上打开foo.csv,它会理解特殊字符。

关于可能出现什么问题或者我应该尝试什么的任何想法?

1 个答案:

答案 0 :(得分:2)

我没有任何带有此编码的数据文件,因此您必须进行一些实验,但有一些步骤可以解决这些问题。

首先,CSV Input步骤有一个字段,允许您选择源文件的编码。 Text File Input步骤在“内容”标签下有“格式”(表示行终止符)和“编码”选择器。

在“变换”中,“效用”选项卡下有Change file encoding步骤。此步骤旨在复制许多文件,同时更改其编码;这就是为什么它在变换中。

在Jobs中,文件管理选项卡下有Convert file between Windows and Unix步骤,但这似乎只涉及行终止符。

无论哪种方式,如果CSV /文本文件输入步骤不符合您的需要,您必须在读取之前将文件复制到新的编码。可能最容易尝试使用文件输入步骤首先。