应用错误收集

PDF文档在项目符号列表方面存储了哪些信息？

时间：2018-04-18 10:40:55

标签： pdf pdf-scraping

我正在尝试从PDF文档中提取文本。我想知道PDF如何处理项目符号段落。考虑这个例子：

PDF是否保留任何逻辑元信息，即上面显示的2块文本是项目符号列表系统的成员，还是只留给人类思维来解释子弹符号？这些信息对我开发我目前正在使用的文本挖掘工具非常有帮助。

谢谢，小号

0 个答案:

没有答案