我想制作一系列包含此PDF(http://mica.lif.univ-mrs.fr/d6.clean2-backup.pdf)中的树木的文件。文件名将是左侧的相应树编号(t0,t1等)。
我尝试使用python提取相关信息和树,但是遇到了麻烦。具体来说,当我尝试将树木提取为图像(使用https://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html)时,没有树木出现(大概是因为树木的格式不正确)。但是,当我尝试将所有内容提取为文本时(如https://www.geeksforgeeks.org/working-with-pdf-files-in-python/),这些树会丢失所有格式(我认为是其中的一些信息)。我该如何从该PDF文件中获取所需的文件?可以用Python完成吗?还有另一种方法更容易吗?
或者,我从中获得PDF的网站(http://mica.lif.univ-mrs.fr/)具有其他形式的树(例如:t27 S ## 1#l#NP#0#2#l#s NP#0# 2#r#s VP ## 3#l#V ## 4#l#h V ## 4#r#h NP#1#5#l#s NP#1#5#r#s VP ## 3 #r#S ## 1#r#)。有没有办法将这种形式转换成树木形式的良好视觉效果?
无论采用哪种方法(如果有人有想法,都可以提供任何帮助),将不胜感激。谢谢!
答案 0 :(得分:1)
如果查看PDF文件的元数据,您会发现它是TeX (LaTeX)创建的文件。我建议您从创建此文档的人那里获取原始LaTeX源文件(而不是PDF),而不是尝试对PDF中的图表进行OCR。
基本上,由于创建PDF的方式,实际上不可能(无需大量工作)将LaTeX PDF返回到文档中。您可以考虑尝试将PDF转换为文档,就像对软件进行逆向工程(就像其他Stack Overflow成员在此处提到的有关从PDF转换为LaTeX文档的线程中提到的那样):{{3} }
有时,如果我要对PDF进行简单的光学字符识别(OCR),我会尝试将其上传到Google文档,以查看其OCR引擎如何从PDF文档提取文本。 GDocs OCR适用于以标准方式格式化的PDF,但是它往往会破坏表格,图表等内容。
如果您有兴趣将数学方程式的图片转换成LaTeX,则可以将其作为https://stackoverflow.com/a/1620020/10382707的一部分,作为OpenAI的一部分neat tool that some researchers at Harvard created进行检查。 它将数学方程式的图像转换为Call for Research。