我需要提取每个单词的字体类型。我一直在尝试提取pdf的内容,并使用它们上使用的字体类型对其进行分类。有人可以帮我吗预先感谢
我尝试使用pdftool,但是pdf_font函数仅提供字体类型。但我希望它与单词对应。
pdf_fonts("D:\\12342903.pdf")
>>name type embedded file
<chr> <chr> <lgl> <chr>
1 ABCDEE+Cambria truetype TRUE ""
2 ABCDEE+Calibri cid_truetype TRUE ""
3 ABCDEE+Calibri truetype TRUE ""
4 ABCDEE+Cambria cid_truetype TRUE ""
5 SymbolMT cid_truetype TRUE ""
6 ArialMT truetype FALSE "C:\\WINDOWS\\Fonts\\arial.ttf"
7 ABCDEE+CourierNewPSMT truetype TRUE ""
8 ABCDEE+Calibri-Bold cid_truetype TRUE ""
9 ABCDEE+Calibri-Bold truetype TRUE ""
我想看的是
word Font
The ABCDEE+Cambria
ground ABCDEE+Cambria
is ABCDEE+Cambria
shaking ABCDEE+Calibri-Bold
答案 0 :(得分:0)
通常这是不可能的:PDF文件中的单词可能包含多个字体类型。但是,一种方法是将PDF转换为更简单的格式(例如HTML),然后使用一些处理单词中间字体更改的规则进行解析。
我不知道有任何易于使用的免费实用程序可以进行转换。我相信Adobe Acrobat的专业版本可以做到(但我没有副本)。在线https://www.zamzar.com/网站可以进行转换,并为我成功地将一个小的PDF示例转换为HTML。