此刻我正在学习word2vec技术,并且陷入了将我的文本数据标记化的句子中。希望有人可以帮助我找出正确的方法。
因此,我的数据是一堆客户的投诉记录。当我将数据加载到python列表中时,它变为:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
sentences = tokenizer.tokenize(text[:5][4])
sentences
我尝试了社区中一些最常用的Sentence Tokenizer方法,这些方法均返回此错误:
TypeError:预期的字符串或类似字节的对象
最终,我找到了:
{{1}}
这类作品,但是我无法计算出要放入[] []的索引,例如:5&4将整个数据集(所有段落)重新标记为句子。
抱歉,如果我的问题含糊,请询问是否需要澄清。
非常感谢
答案 0 :(得分:2)
您可以在列表理解中使用nltk.tokenize.word_tokenize()
,如下所示:
In [112]: from nltk.tokenize import word_tokenize
In [113]: tokenized = [word_tokenize(sent) for sent in text]
输出:
[['this',
'is',
'the',
'first',
'sentence',
'of',
'the',
'first',
'paragraph',
'.',
'and',
'this',
'is',
'the',
'second',
'sentence',
'.'],
['some',
'random',
'text',
'in',
'the',
'second',
'paragraph',
.
.
.
.
]]