Perl如何获取PDF字数

时间:2015-01-28 13:43:02

标签: perl

我在PDF中获得了完整的字数。但我想得到除了页眉,页脚和Folios之外的Pdf字数。 请提前帮助谢谢。

use strict;
use warnings;
use CAM::PDF;
use CAM::PDF::PageText;
my $filename = shift;
 my $pdf = CAM::PDF->new($filename);
   my $pageone_tree = $pdf->getPageContentTree(1);
   my $count;
 my $cnt = CAM::PDF::PageText->render($pageone_tree);
 print"$cnt";

1 个答案:

答案 0 :(得分:0)

如果你的文件不太复杂,那就可以解决问题了:

#!/usr/bin/perl

use strict;
use warnings;

use CAM::PDF;

my $file = 'C:\Users\username\Documents\illguts.pdf';

my $pdf = CAM::PDF->new($file);

my $word_count = 0;
for my $pagenum ( 1 .. $pdf->numPages ) {
    my $words_on_this_page =
        scalar split( /\s+/, $pdf->getPageText($pagenum) );
    print "Page: $pagenum $words_on_this_page\n";
    $word_count += $words_on_this_page;
}

print "Total words: $word_count\n";

虽然有一点需要注意,PDF可能非常复杂,这是一种非常基本的方法。应该给你一个起点。