Question

我有一些.tex文件，我希望从中接收纯文本而没有任何乳胶标签，例如\ section {...}或\ newpage。有没有人知道如何实现这一目标？我也有.pdf文件，但是当我从那里复制代码时，有些单词会被连接起来，这真的很糟糕。
你知道有什么工具吗？

Answer 1

请参阅OpenDetex GitHub page了解OpenDetex的最新版本。它是我原始DeTeX的一个更现代的衍生版本。

我的遗产DeTeX home page可用here。

如果您只想要旧版detex-2.8.tar来源，则可以获取here。

Answer 2

opendetex适用于Windows和Linux

将其解压缩到您选择的任何目录。假设您将其解压缩到下载目录。

在其中创建任何名称的另一个目录（可选。但如果你创建它的好处）。说目录名是“my_paper”。将您的论文放在“my_paper”目录中。说你的论文名是project.tex

浏览路径

cd ~/Downloads/opendetex

运行命令

detex -n my_paper/project.tex  > out.txt

通用表格

detex -n full_path_to_tex_file.tex > output_text_file.txt

Answer 3

也许不是OP要求的100％，但也许有所帮助。

poppler-utils中有pdftotext。可以通过

将PDF文件转换为TXT文件。

pdftotext yourPDF.pdf

这当然会增加安装此软件包的开销，但我认为它是可以忽略的，因为如果我没有记错的话，这是在Linux上呈现PDF的标准库，所以如果您安装了PDF查看器（Think Evince或Okular），它将已经安装。

找到here其他说明。