我已经编写了一个自定义Streamsets起源。一些记录包含诸如é或ë的字符。在运行自动化测试时,我可以验证数据是否按预期作为SDC记录列表发出。
但是,当我在经过docker化的Streamsets Data Collector上的管道中使用自定义来源时,所有这些特殊字符都显示在UI(预览)中,并以'?'的形式推送到我的Target。
Streamsets是否可以解释我的来源的输出并应用一些字符编码?
答案 0 :(得分:1)
问题根本不在定制源或流集中,而是Docker容器本身存在的问题。我继承的官方Streamsets容器基于Alpine Linux。默认情况下,没有安装语言环境支持,所以诀窍是自己添加。
此post帮助我将其安装在容器中并配置了容器。之后,一切都按预期进行。