从pdf文件中删除页码,页眉和页脚

时间:2015-01-12 11:44:11

标签: pdftotext

我想解析一个pdf文件,因为我正在使用pdftotext实用程序将pdf文件转换为文本文件,现在我想从文本文件中删除页码,页眉和页脚。

我正在使用以下语法转换pdf文件:

pdftotext -layout input.pdf output.txt

有人可以帮我吗?

2 个答案:

答案 0 :(得分:5)

你需要使用params -H -W -y -x进行裁剪,至少是-H -W -y。

示例:

pdftotext -y 80 -H 650 -W 1000 -nopgbrk -eol unix example.pdf


-y 80   -> crop 80 pixels after the top of file (remove header);
-H 650  -> crop 650 pixels after the -y has cropped (remove footer);
-W 1000 -> hight value to crop nothing (need especify something);

您需要为每个PDF调整-y和-H,有时会减少-y并增加-H以适应页眉和页脚;

答案 1 :(得分:0)

搜索显示页码或页眉,页脚的图案!例如,当我使用pdftotext将pdf文件转换为文本时,我意识到数字页面在文本中是独立的,所以我使用正则表达式来代替它们:

for root, dirs, files in os.walk(src, topdown=False):
    for name in files:
        if name.endswith('.txt'):
            with open(os.path.join(root, name), "r") as fin:
                 data = fin.read()    
                 new_text = re.sub(r'\n\d+\n\s','',data,re.DOTALL)

因为每个页码都在一行中(没有任何其他文本),并且在该号码之后我有一个新行。我对pdf文件的页眉和页脚做了相同的操作。