标签: parsing text nlp tokenize
我有以下任务要做:填写拼写检查字典(简单的txt文件)我需要解析器 应该: - 解析文本文件(或其他类型的文档),解压缩 每个单词,然后创建文本文件与简单的单词列表,如下所示: adfadf adfasdfa adfasfdasdf adsfadf ... 等等 您建议使用哪种脚本语言和库?如果可能的话,请提供代码示例(特别是提取每个单词)。谢谢!
答案 0 :(得分:2)
你想要的不是解析器,而只是一个标记器。这可以用任何带有一堆正则表达式的语言来完成,但我建议使用NLTK的Python:
>>> from nltk.tokenize import word_tokenize >>> word_tokenize('Hello, world!') ['Hello', ',', 'world', '!']
通常,几乎任何NLP工具包都会包含一个标记器,因此不需要重新发明轮子;标记化并不难,但它涉及编写大量的启发式方法来处理所有异常,如缩写,首字母缩略词等。