如何将一个句子分成几个单词

时间:2015-03-09 09:49:20

标签: python-2.7 parsing nlp nltk

我想问一下如何将一个句子分成几个单词,这是在使用名为NLTK或PARSER的python中的NLP(自然语言处理)?在python上我和这个方法混淆了,我应该采取什么方法。

2 个答案:

答案 0 :(得分:1)

如果要查找句子包含的所有单词,即tokenization,请使用NLTK:

tokens = nltk.word_tokenize(sentence)

请注意,按空格sentence.split()进行简单拆分会更糟糕。

In particular,'处理缩写时,这很快就会出现问题。 “等”将被解释为句子终止符,并且“U.N.E.S.C.O.”将被解释为六个单独的句子,当两者都应被视为单个单词令牌时。连字符应该如何解释?语音标记和撇号怎么样?'

或者看看another source:"你在空白处砍掉并扔掉标点字符。这是一个起点,但即使是英语也有一些棘手的案例。例如,你如何处理撇号对占有和收缩的各种用途?

Mr. O'Neill thinks that the boys' stories about Chile's capital aren't amusing.

一个简单的策略是只拆分所有非字母数字字符,但o neill看起来没问题,aren t看起来很直观。"

答案 1 :(得分:-2)

不使用Natural Language Toolkit(NLTK),您可以使用简单的Python命令 如下。

>>> line="a sentence with a few words"
>>> line.split()
['a', 'sentence', 'with', 'a', 'few', 'words']
>>>

How to split a string into a list?

中给出