我有一些.tex文件,我希望从中接收纯文本而没有任何乳胶标签,例如\ section {...}或\ newpage。
有没有人知道如何实现这一目标?
我也有.pdf文件,但是当我从那里复制代码时,有些单词会被连接起来,这真的很糟糕。
你知道有什么工具吗?
答案 0 :(得分:21)
请参阅OpenDetex GitHub page了解OpenDetex的最新版本。它是我原始DeTeX的一个更现代的衍生版本。
我的遗产DeTeX home page可用here。
如果您只想要旧版detex-2.8.tar来源,则可以获取here。
答案 1 :(得分:6)
opendetex适用于Windows和Linux
从这里下载程序opendetex
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list
使用方法: http://code.google.com/p/opendetex/wiki/Usage
将其解压缩到您选择的任何目录。 假设您将其解压缩到下载目录。
在其中创建任何名称的另一个目录(可选。但如果你创建它的好处)。说目录名是“my_paper”。将您的论文放在“my_paper”目录中。说你的论文名是project.tex
浏览路径
cd ~/Downloads/opendetex
运行命令
detex -n my_paper/project.tex > out.txt
通用表格
detex -n full_path_to_tex_file.tex > output_text_file.txt
答案 2 :(得分:0)
也许不是OP要求的100%,但也许有所帮助。
poppler-utils中有pdftotext
。可以通过
pdftotext yourPDF.pdf
这当然会增加安装此软件包的开销,但我认为它是可以忽略的,因为如果我没有记错的话,这是在Linux上呈现PDF的标准库,所以如果您安装了PDF查看器(Think Evince或Okular) ,它将已经安装。
找到here其他说明。