给出像"浪漫"或者"地下",我想使用python浏览文本数据列表并检索包含这些单词和相关单词的条目,例如" boys"或者"在墙上钻孔"。
有人建议我与NLTK一起工作,但我不知道从哪里开始,我对语言处理或语言学一无所知。任何指针都会非常感激。
答案 0 :(得分:1)
你还没有给我们太多的帮助。但是我们假设你有一段文字。这是我刚从Yelp评论中偷走的一个:
纽约市中心多么美丽的火车站。我在报纸,电影和杂志上看到了令人难忘的GCT图像,所以我很清楚电视台内部的样子。然而,它仍然是一颗宝石。在高峰时段站在大厅的中心是一个有趣的体验 - 通勤者在你周围大力流动,阳光透过巨大的窗户照进来,公共广播电台系统蓬勃发展。这是一次真正的纽约体验。
好的,那里有很多单词。你想要什么样的话?形容词?副词? NLTK将帮助您“标记”单词,因此您可以找到所有广告词:“美丽”,“难忘”,“有趣”,“大量”,“真实”。
现在,你打算怎么处理它们?也许你可以投入一些动词和名词,“喜气洋洋”的声音非常好。但“公告”并不那么有趣。
无论如何,您可以构建关联数据库。此广告词出现在带有这些其他词语的段落中。
也许你可以计算每个单词的频率,而不是整个语料库。也许“餐馆”出现很多,但“虫洞”相对罕见。所以你可以这样过滤? (只保留“有趣”的字样。)
或许你可以走另一条路,并提取同义词:如果“浪漫”和“女朋友”一起出现,那么称它们为“相关词”并将它们用作搜索引擎的一部分?
我们不知道你想要完成什么,所以很难提出建议。但是,是的,NLTK可以帮助您选择单词的某些子组,如果它实际上是相关的。