将PDF文本转换为DataFrame

时间:2019-04-26 18:56:01

标签: python pandas

我使用python阅读pdf文件。现在,我想用它制作一个数据框。我使用“替换”清除了文本

我用逗号和空格替换'\ n'并将文本设置为可读格式

obj = obj.replace('\n',',').replace('\n','').replace(',',' ')
line1 = obj.replace('Serial Number', 'Serial Number break').replace('1  2  3  4  5  6 7 8 9 10', '1  2  3  4  5  6 7 8 9 10 break')
line1 = line1.split(' break')

我想要一个数据帧,其序列号作为标题,而1,2,3,4,5,6,7,8,9,10作为列中的值。此后我还有一些文字,这些文字不是结构化的。我想知道如何制作数据框。 序列号 数 1

2

3

4

5

6 7 8 9 10

1 个答案:

答案 0 :(得分:0)

这应该使DF的列名称从“序列号1”到“序列号10”

pd.DataFrame(columns=['Serial Number' + str(x) for x in range(1,11)])