我是NLP的新手并且我开始了解NLTK,但是我在尝试完成某些事情时遇到了一些麻烦。
我想构建我自己的单词标记器,这样如果我传递一个像“保时捷是红色的”字符串,该函数将返回('保时捷','汽车','红色','颜色')。
我已经建立了定义类别的词典。我正在努力学习如何开始。有人可以提供一些帮助吗?
非常感谢。
UPDATE:此时的字典是.csv格式的简单两列列表,其中包含该字及其对应的类别。
示例链接:http://www.filedropper.com/carexampledictionary
此致 米克
答案 0 :(得分:0)
我认为列表中的简单查找可能有用。首先对文本进行标记,然后遍历标记并在类别列表中查找列表中的每个标记。
您可能遇到的一个问题是类别之间的重叠。是否有任何词出现在多个类别列表中?如果是这样,您需要一种方法来消除给定令牌属于哪个类别的歧义。如果不是简单的列表查找应该工作。
更确切地说,这是我将一步一步做的事情:
希望有所帮助。