我使用Logstash在HDFS中存储本地日志数据。 并使用hive外部表函数加载配置表。
Logstash将时间戳和版本信息添加到输出(HDFS,Elastic ...)。
但是,我不需要时间戳和版本,因为只需使用--exclude
来ETL。
所以我想删除时间戳,版本信息等字段。
日志数据就像这样
logstash
和HDFS输出文件是这样的
$ cat /$PATH/log.txt
[data] [data2] [data3]
[data] [data2] [data3]
[data] [data2] [data3]
如何制作这样的输出HDFS文件格式?
$ hadoop fs -cat /$PATH/log.txt
[timestamp] [version] [data] [data2] [data3]
[timestamp] [version] [data] [data2] [data3]
[timestamp] [version] [data] [data2] [data3]