我正在使用Python中的工具从PDF文件中提取突出显示的段落。我经常在OS X Lion的预览中突出显示PDF,但还没有找到提取这些段落的好工具。其他应用程序允许您突出显示和导出,例如Skim,但我认为必须有一种方法来提取我在预览中添加的那些。
我认为亮点将存储在PDF文件的HFS +扩展属性中,但在使用xattr查看后,它们似乎存储在其他位置。我也查看了PDFKit,但我只看到了如何创建注释而不是找到它们。
如果有人可以告诉我在哪里可以找到亮点/注释,或者在某些文档中指出我的解释,我会非常感激。
答案 0 :(得分:2)
答案 1 :(得分:2)
从技术上讲,突出显示PDF的部分内容是在文件中添加注释。这些注释是PDF规范中定义的PDF对象。它们存储在PDF文件本身内,即它们会修改原始文件!这就是为什么你不会在HFS +扩展属性中找到亮点的痕迹...
因此,标题行问题的答案是:预览将PDF文件中的高光存储为完全兼容的PDF对象。
你的文字中隐含的真实问题的答案('我想提取突出显示的段落')得到了sosborn的好评。