我将构建一个脚本,它将提取PDF文件的某些功能。我为每个文件提取的输出将类似于:
obj 8
endobj 8
stream 1
endstream 1
xref 1
trailer 1
startxref 1
/Page 1
/Encrypt 0
现在我需要为超过一千个文件创建此结果的数据集。 我的最终数据集应该存储每个实体的数值。 例如:
obj: 8,6,5,2,8,9
endobj:8,5,4,1,1,2,3
...
..
...
一旦我掌握了这些数据,我计划运行统计数据,比如Obj等的平均值。记住这些事情,应该是最理想的解决方法。
我打算创建一个表,其中实体将成为行,值为列。
我也遇到numpy
,因为我的工作主要是数据分析,但我不确定它是否适合这种情况。
请分享您的建议。
答案 0 :(得分:0)
我使用python dict
解决了这个问题。为我工作完美。