用于文本分段的Python库

时间:2016-01-28 16:53:18

标签: python scipy scikit-learn cluster-computing semantics

有人可以为文本分段提出好的方法和/或库吗?

E.g。我有一套双字母或三元组。那么我想说,这些bigrams指的是一个集群,那些指向那个集群的集合等等。

我集群后,我将手动命名这些集群。

我需要像字典一样创建smth,将文字评论分类('投诉','垃圾邮件'等等)......

____编辑____

我已经使用gensim lib和LDA建模停止了搜索。它工作得很好

1 个答案:

答案 0 :(得分:0)

nltk或自然语言工具包是用于在Python中处理文本的首选工具。这将处理项目的分段方面。

具体来说,您可能对tokenize模块感兴趣! See the documentation for more details.