标签: python machine-learning
我正在寻找一种在段落级别对大文本(数百页)进行聚类的方法,但保持文本的连续性不变。换句话说,这总结为将文本聚类成章节。有人能为我提供一个如何做到这一点的起点吗?
稍微研究一下,没有找到与我的问题相关的任何内容,但更多的是关于将单个段落聚类为独立段落或聚类文件标题等的任务。
任何指向正确方向的想法或链接都会有所帮助。感谢。