为什么Google Dataprep无法处理我的日志文件中的编码?

时间:2017-12-10 11:21:56

标签: google-cloud-dataprep

我们每个月都会收到大日志文件。在将它们加载到Google BigQuery之前,需要将它们从fixed更改为分隔。我在Google Dataprep中找到了一个很好的article如何做到这一点。但是,编码似乎有问题。

每次瑞典字符出现在日志文件中时,分割功能似乎会添加另一个空格。这会弄乱剩余的列,如附带的屏幕截图所示。

我无法确定日志文件的正确编码,但我知道它们是由波兰很老的Windows服务器创建的。

有人可以就如何解决这一挑战提出建议吗?

Screenshot of the issue in Google Dataprep.

2 个答案:

答案 0 :(得分:0)

我们使用的确切食谱是什么?你使用(拆分每个x)? 当我在测试用例中使用ISO Latin1文本并将其作为ISO 8859-1摄取时,输出是预期的,只有显示关闭 你能尝试一下吗? 是否可以与一行或两行共享示例输入文件?

enter image description here

答案 1 :(得分:0)

作为一种解决方法,您可以使用RegEx,它应该可以使用。 不幸的是,它有点复杂,因为你必须使用多个正则表达式分割。下面是前两个分割的示例,每个分割后有10个字符/.{10}/并在//

上分割

enter image description here