我需要向pandas read_csv提供我用Popen执行的一个命令的输出。
p = subprocess.Popen(cmd,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
stdout, stderr = p.communicate()
pandas.read_csv(stdout,index_col=0)
但显然stdout是一个字符串,它被解释为一条路径。在API文档中,它表示"任何带有read()方法的对象(例如文件句柄或StringIO)"可以是read_csv函数的输入。我怎样才能从Popen命令中获得这样的对象?最终目标是不写入磁盘。
另外当我写入磁盘时stdout的内容我可以看到csv每行都有双引号
alvarobrandon$ head csvfile.csv
"1507109453,<,java,12447,a3e9c495869d,docker,9.0.4.130,9.0.2.131,9.0.2.131,9.0.4.130,56182,9092,9092,56182,tcp"
"1507109453,<,java,1244,a3e9c495869d,docker,9.0.4.130,9.0.2.131,9.0.2.131,9.0.4.130,56182,9092,9092,56182,tcp"
"1507109453,<,java,12447,a3e9c495869d,docker,9.0.4.130,9.0.2.131,9.0.2.131,9.0.4.130,56182,9092,9092,56182,tcp"
答案 0 :(得分:2)
您需要的是从stdout读取并将该数据存储到类似文件的StringIO
对象中。这是一个最小的工作示例。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import io
import subprocess
import pandas
cmd = ('cat', '/tmp/csvfile')
process = subprocess.Popen(cmd, stdout=subprocess.PIPE)
csv = io.StringIO(process.stdout.read().decode())
data = pandas.read_csv(csv, index_col=0)
csv.close()
希望这有帮助!
编辑(输出实际上不是CSV,因此我们必须在解析之前对其进行一些清理):
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import io
import subprocess
import pandas
cmd = ('cat', '/tmp/csvfile')
process = subprocess.Popen(cmd, stdout=subprocess.PIPE)
csv = io.StringIO()
for line in process.stdout:
csv.write(line.decode().strip('"\n') + '\n')
csv.seek(0)
data = pandas.read_csv(csv, index_col=0)
csv.close()