自定义Word Tagger

时间:2015-05-15 17:16:33

标签: nlp nltk

我是NLP的新手并且我开始了解NLTK,但是我在尝试完成某些事情时遇到了一些麻烦。

我想构建我自己的单词标记器,这样如果我传递一个像“保时捷是红色的”字符串,该函数将返回('保时捷','汽车','红色','颜色')。

我已经建立了定义类别的词典。我正在努力学习如何开始。有人可以提供一些帮助吗?

非常感谢。

UPDATE:此时的字典是.csv格式的简单两列列表,其中包含该字及其对应的类别。

示例链接:http://www.filedropper.com/carexampledictionary

此致 米克

1 个答案:

答案 0 :(得分:0)

我认为列表中的简单查找可能有用。首先对文本进行标记,然后遍历标记并在类别列表中查找列表中的每个标记。

您可能遇到的一个问题是类别之间的重叠。是否有任何词出现在多个类别列表中?如果是这样,您需要一种方法来消除给定令牌属于哪个类别的歧义。如果不是简单的列表查找应该工​​作。

更确切地说,这是我将一步一步做的事情:

  1. 将数据导入字典
  2. 标记文字
  3. 对于每个令牌,查看令牌是否在您的词典的键中
  4. 根据属于哪个类别
  5. 标记单词

    希望有所帮助。