有人可以为文本分段提出好的方法和/或库吗?
E.g。我有一套双字母或三元组。那么我想说,这些bigrams指的是一个集群,那些指向那个集群的集合等等。
我集群后,我将手动命名这些集群。
我需要像字典一样创建smth,将文字评论分类('投诉','垃圾邮件'等等)......
____编辑____
我已经使用gensim lib和LDA建模停止了搜索。它工作得很好
答案 0 :(得分:0)
nltk或自然语言工具包是用于在Python中处理文本的首选工具。这将处理项目的分段方面。
具体来说,您可能对tokenize
模块感兴趣! See the documentation for more details.