从tex中提取文本,删除乳胶标签

时间:2009-05-06 12:51:17

标签: latex

我有一些.tex文件,我希望从中接收纯文本而没有任何乳胶标签,例如\ section {...}或\ newpage。 有没有人知道如何实现这一目标? 我也有.pdf文件,但是当我从那里复制代码时,有些单词会被连接起来,这真的很糟糕。
你知道有什么工具吗?

3 个答案:

答案 0 :(得分:21)

detex(1)

  

请参阅OpenDetex GitHub page了解OpenDetex的最新版本。它是我原始DeTeX的一个更现代的衍生版本。

     

我的遗产DeTeX home page可用here

     

如果您只想要旧版detex-2.8.tar来源,则可以获取here

答案 1 :(得分:6)

opendetex适用于Windows和Linux

从这里下载程序opendetex
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list

使用方法: http://code.google.com/p/opendetex/wiki/Usage

将其解压缩到您选择的任何目录。 假设您将其解压缩到下载目录。

在其中创建任何名称的另一个目录(可选。但如果你创建它的好处)。说目录名是“my_paper”。将您的论文放在“my_paper”目录中。说你的论文名是project.tex

浏览路径

cd ~/Downloads/opendetex

运行命令

detex -n my_paper/project.tex  > out.txt

通用表格

detex -n full_path_to_tex_file.tex > output_text_file.txt

答案 2 :(得分:0)

也许不是OP要求的100%,但也许有所帮助。

poppler-utils中有pdftotext。可以通过

将PDF文件转换为TXT文件。
pdftotext yourPDF.pdf

这当然会增加安装此软件包的开销,但我认为它是可以忽略的,因为如果我没有记错的话,这是在Linux上呈现PDF的标准库,所以如果您安装了PDF查看器(Think Evince或Okular) ,它将已经安装。

找到here其他说明。