如何在Ubuntu上找到PDF文件中最常用的单词?

时间:2014-12-29 23:16:32

标签: parsing ubuntu pdf

我有各种研究论文(近150篇)是PDF文件。我必须在这些文件中找到n个最常用的单词。

这些PDF文件也有数字和数学公式。我知道怎么做只有单词的单个文本文件。我想编写一个脚本来解析所有150个PDF文件,然后返回这些文件中n个最常用单词的列表。

  1. 我想要一种方法来解析复杂的PDF文件(包含文字,数字和公式)

  2. 然后我想写一个脚本来解析我电脑上特定位置的所有文件,并返回所有PDF文件中n个最常用单词的列表。

1 个答案:

答案 0 :(得分:1)

1)用CAM::PDF解析PDF文件 2)在perl中使用split()(空格或制表符)(对于每个pdf和每行内部)来获取每个单词:

$words{$_}++ for split /\s+/, $line;

3)最后,用%words的数值排序(或者测试每个值)并得到第1个元素