应用错误收集

时间：2017-12-10 11:21:56

标签： google-cloud-dataprep

我们每个月都会收到大日志文件。在将它们加载到Google BigQuery之前，需要将它们从fixed更改为分隔。我在Google Dataprep中找到了一个很好的article如何做到这一点。但是，编码似乎有问题。

每次瑞典字符出现在日志文件中时，分割功能似乎会添加另一个空格。这会弄乱剩余的列，如附带的屏幕截图所示。

我无法确定日志文件的正确编码，但我知道它们是由波兰很老的Windows服务器创建的。

有人可以就如何解决这一挑战提出建议吗？

答案 0 :(得分：0)

我们使用的确切食谱是什么？你使用（拆分每个x）？当我在测试用例中使用ISO Latin1文本并将其作为ISO 8859-1摄取时，输出是预期的，只有显示关闭你能尝试一下吗？是否可以与一行或两行共享示例输入文件？

答案 1 :(得分：0)

作为一种解决方法，您可以使用RegEx，它应该可以使用。不幸的是，它有点复杂，因为你必须使用多个正则表达式分割。下面是前两个分割的示例，每个分割后有10个字符/.{10}/并在//

上分割