如何从LaTeX文档中提取重要的文本内容

时间:2011-01-29 13:43:30

标签: latex plagiarism-detection

我需要从我在LaTeX中编写的论文文档中提取纯文本内容,以进行自动反剽窃检查。我只知道“草案”选项,但这还不够。

我应该省略:

  • 图像,
  • 表和其他数字,
  • 方程,
  • 字幕和脚注。

删除所有引用也很好。输出应该是普通(UTF-8编码)文本文件。

有没有直接的方法来做到这一点? 我并不想真正想要逐页手动复制它。

5 个答案:

答案 0 :(得分:1)

是:untex,一个简单的C脚本。您还可以查看detex

答案 1 :(得分:1)

您可以尝试使用评论包(或十几种替代方案中的一种)将等式,图形,表格等转换为评论环境和\ renewcommand \ footnote [1] {}以删除脚注。 \ pagestyle {empty}应该删除页面标题等,因此在结果上运行pdftotext应该接近你想要的。

答案 2 :(得分:1)

您可以使用pandoc之类的文档转换器,或将输出PDF转换为Calibre之类的纯文本。

答案 3 :(得分:1)

通常你想要对文本进行一些LaTeX处理,比如你有

  

\ newcommand * {\ SO} {的StackOverflow \索引{的StackOverflow} \ xspace}

     

...

     

我花了很多时间在\所以,等等   哇....

在此处过滤掉文本段落时,如果包含任何宏,则不会提供类似于预期结果的文本。

因此,尝试直接从* .tex文件中提取内容通常会从结果中留下很多东西。因此,通常更好地研究乳胶加工的产量。我建议将latex转换为html,然后从html转换为text。您可能需要进行一些手动清理,但我认为它应该相对接近。

答案 4 :(得分:1)

虽然提到了侦探,但还有另一个项目,旨在改善它。它被称为opendetex,看看吧!