我想从英文文本中提取出售产品的名称。
例如:
“我正在销售我的xbox全新”
“卖很少使用27英寸电视”
应该给我"xbox"
和"27 inch TV"
目前我唯一能想到的就是在一个重要名词和重要形容词的巨大列表中进行硬编码:['tv', 'fridge', 'xbox', 'laptop', etc]
有更好的方法吗?
答案 0 :(得分:1)
看起来nltk会给你一个单词列表及其词性。既然你只对名词感兴趣? this将为您提供
>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is',
'VBZ'), ("n't", 'RB'), ('all', 'DT'), ('that', 'DT'), ('bad', 'JJ'),
('.', '.')]