Question

我将构建一个脚本，它将提取PDF文件的某些功能。我为每个文件提取的输出将类似于：

 obj                    8
 endobj                 8
 stream                 1
 endstream              1
 xref                   1
 trailer                1
 startxref              1
 /Page                  1
 /Encrypt               0

现在我需要为超过一千个文件创建此结果的数据集。我的最终数据集应该存储每个实体的数值。例如：

obj: 8,6,5,2,8,9
endobj:8,5,4,1,1,2,3
...
..
...

一旦我掌握了这些数据，我计划运行统计数据，比如Obj等的平均值。记住这些事情，应该是最理想的解决方法。我打算创建一个表，其中实体将成为行，值为列。我也遇到numpy，因为我的工作主要是数据分析，但我不确定它是否适合这种情况。请分享您的建议。

Answer 1

我使用python dict解决了这个问题。为我工作完美。

存储命令行的结果，以便在Python中进行进一步的数据分析

1 个答案: