如何使用R提取PDF中每个单词的字体类型

时间:2019-06-07 10:14:01

标签: r pdf fonts

我需要提取每个单词的字体类型。我一直在尝试提取pdf的内容,并使用它们上使用的字体类型对其进行分类。有人可以帮我吗预先感谢

我尝试使用pdftool,但是pdf_font函数仅提供字体类型。但我希望它与单词对应。

  pdf_fonts("D:\\12342903.pdf")
  >>name                  type         embedded file                           
    <chr>                 <chr>        <lgl>    <chr>                          
  1 ABCDEE+Cambria        truetype     TRUE     ""                             
  2 ABCDEE+Calibri        cid_truetype TRUE     ""                             
  3 ABCDEE+Calibri        truetype     TRUE     ""                             
  4 ABCDEE+Cambria        cid_truetype TRUE     ""                             
  5 SymbolMT              cid_truetype TRUE     ""                             
  6 ArialMT               truetype     FALSE    "C:\\WINDOWS\\Fonts\\arial.ttf"
  7 ABCDEE+CourierNewPSMT truetype     TRUE     ""                             
  8 ABCDEE+Calibri-Bold   cid_truetype TRUE     ""                             
  9 ABCDEE+Calibri-Bold   truetype     TRUE     ""                     

我想看的是

   word           Font
   The            ABCDEE+Cambria
   ground         ABCDEE+Cambria
   is             ABCDEE+Cambria
   shaking        ABCDEE+Calibri-Bold

1 个答案:

答案 0 :(得分:0)

通常这是不可能的:PDF文件中的单词可能包含多个字体类型。但是,一种方法是将PDF转换为更简单的格式(例如HTML),然后使用一些处理单词中间字体更改的规则进行解析。

我不知道有任何易于使用的免费实用程序可以进行转换。我相信Adobe Acrobat的专业版本可以做到(但我没有副本)。在线https://www.zamzar.com/网站可以进行转换,并为我成功地将一个小的PDF示例转换为HTML。