如何将本地ORC文件转换为CSV?

时间:2019-02-01 15:49:26

标签: csv orc

我的本​​地计算机上有一个ORC文件,并且需要任何合理的格式(例如CSV,JSON,YAML等)。

如何将ORC转换为CSV?

2 个答案:

答案 0 :(得分:0)

  1. Download
  2. 解压缩文件,转到java文件夹并执行maven:mvn install
  3. 使用ORC工具

这是我的使用方式-您可能需要调整路径:

java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json

输出为JSON Lines,易于转换为CSV。首先,我需要从输出中删除最后两行。然后:

import pandas as pd

df = pd.read_json('output.json', lines=True)
df.to_csv('output.csv')

答案 1 :(得分:0)

另一个选项可能是 bigdata-file-viewer,它是一个跨平台的应用程序。您可以打开 ORC 文件并以 CSV 格式保存该文件。

详细用法如下:

  • 从发布页面下载可运行的 jar 或按照构建部分从源代码构建。
  • 通过 java -jar BigdataFileViewer-1.2-SNAPSHOT-jar-with-dependencies.jar 调用它
  • 通过“文件”->“打开”打开二进制格式的文件。目前,它可以打开带有parquet后缀、orc后缀和avro后缀的文件。如果未指定后缀,该工具将尝试将其提取为 Parquet 文件
  • 通过“查看”设置每页的最大行数->输入最大行数->“转到”
  • 通过“查看”->“添加/删除属性”设置可见属性
  • 通过“文件”->“另存为”->“CSV”转换为CSV文件
  • 通过展开“架构信息”面板检查架构信息