在Python中使用标记化文本查找多字词

时间:2017-12-05 22:43:06

标签: python nlp nltk

我有一个我已经标记过的文本,或者通常一个单词列表也可以。例如:

   >>> from nltk.tokenize import word_tokenize
    >>> s = '''Good muffins cost $3.88\nin New York.  Please buy me
    ... two of them.\n\nThanks.'''
    >>> word_tokenize(s)
        ['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.',
        'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']

如果我有一个包含单个单词和多个单词的Python dict,我怎样才能有效和正确地检查它们在文本中的存在?理想的输出是关键:location_in_text对,或者方便的东西。 提前谢谢!

P.S。解释“正确” - 如果我在我的词典中“租赁”,我不希望请标记。此外,需要识别复数。我想知道如果没有很多if-else条款可以优雅地解决这个问题。

1 个答案:

答案 0 :(得分:3)

如果您已有多词表达式地名录列表,则可以使用MWETokenizer,例如:

>>> from nltk.tokenize import MWETokenizer
>>> from nltk import sent_tokenize, word_tokenize

>>> s = '''Good muffins cost $3.88\nin New York.  Please buy me
...     ... two of them.\n\nThanks.'''

>>> mwe = MWETokenizer([('New', 'York'), ('Hong', 'Kong')], separator='_')


>>> [mwe.tokenize(word_tokenize(sent)) for sent in sent_tokenize(s)]
[['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New_York', '.'], ['Please', 'buy', 'me', '...', 'two', 'of', 'them', '.'], ['Thanks', '.']]