Emacs:如何生成文档的词表?

时间:2011-08-15 21:08:46

标签: emacs latex indexing auctex

我想根据RefTex手册中的建议,使用RefTex生成LaTex文档的索引:

“......您可能希望从文档的单词列表开始,并删除所有不应编入索引的单词。” ( - >收集索引短语文件的短语)。

现在我问自己:如何为我的多文件LaTex文档生成这样的单词列表? 我在Emacs手册或网络上找不到答案。但是Emacs必须能够做到这一点,对吗?

感谢任何提示。

2 个答案:

答案 0 :(得分:1)

快速入门(在命令行,而不是emacs):

sed 's/ */\n/g' < myDocument.txt | sort -f | uniq > wordListToEdit.txt

答案 1 :(得分:0)

我找到了一个独立于Emacs的解决方案,但它生成了一个包含文档中找到的所有标记的文件。 我刚刚在Emacs Dired中标记了我的LaTeX项目中的所有.tex文件,然后使用了

! myshellscript

在所有这些脚本上运行以下脚本。 您可以在此处找到有关nltk和Python的更多信息:http://www.nltk.org/

#!/usr/bin/env bash
echo $0
echo $1

python -c "\
from __future__ import division;\
import nltk, re, pprint;\
f = open('$1');\
raw = f.read();\
print nltk.word_tokenize(raw)\
" >> tok