如何制作文本文件(或其他文档)解析器?

时间:2011-11-10 10:56:45

标签: parsing text nlp tokenize

我有以下任务要做:填写拼写检查字典(简单的txt文件)我需要解析器 应该: - 解析文本文件(或其他类型的文档),解压缩 每个单词,然后创建文本文件与简单的单词列表,如下所示: adfadf adfasdfa adfasfdasdf adsfadf ... 等等 您建议使用哪种脚本语言和库?如果可能的话,请提供代码示例(特别是提取每个单词)。谢谢!

1 个答案:

答案 0 :(得分:2)

你想要的不是解析器,而只是一个标记器。这可以用任何带有一堆正则表达式的语言来完成,但我建议使用NLTK的Python:

>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']

通常,几乎任何NLP工具包都会包含一个标记器,因此不需要重新发明轮子;标记化并不难,但它涉及编写大量的启发式方法来处理所有异常,如缩写,首字母缩略词等。