我对Pentaho数据集成进行了转换,我做的第一件事就是使用" CSV输入"映射我的平面文件。
我在Windows上从来没有遇到任何问题,但是现在我正在操作我的服务器,勺子将运行到Linux服务器,现在我遇到了特殊字符问题。
我注意到的第一件事是我的表格正在更新,因为系统将名称理解为与我数据库中的名称不同的字符串。
检查问题,我还注意到,如果我转到我的" CSV输入" - >预览,它将显示我的数据预览与上述问题:
Special characters are not showing
它应该在哪里:
Diretoria de Suporte à Decisão e Aplicação
我使用命令来检查我的文件字符集/编码,它显示:
$ file -bi foo.csv
text/plain; charset=iso-8859-1
如果我在vi上打开foo.csv,它会理解特殊字符。
关于可能出现什么问题或者我应该尝试什么的任何想法?
答案 0 :(得分:2)
我没有任何带有此编码的数据文件,因此您必须进行一些实验,但有一些步骤可以解决这些问题。
首先,CSV Input
步骤有一个字段,允许您选择源文件的编码。 Text File Input
步骤在“内容”标签下有“格式”(表示行终止符)和“编码”选择器。
在“变换”中,“效用”选项卡下有Change file encoding
步骤。此步骤旨在复制许多文件,同时更改其编码;这就是为什么它在变换中。
在Jobs中,文件管理选项卡下有Convert file between Windows and Unix
步骤,但这似乎只涉及行终止符。
无论哪种方式,如果CSV /文本文件输入步骤不符合您的需要,您必须在读取之前将文件复制到新的编码。可能最容易尝试使用文件输入步骤首先。