我有兴趣做一个关于文档分类的项目,并且一直在寻找可能对与此相关的文本挖掘中的理论部分有用的书籍或描述从具有分类文档的培训数据过程的文章示例(与子类别)指向预测文档类别的系统。似乎有一些(相当昂贵!)的标题可用,但这些是关于较小的非常具体主题的文章的会议论文集。有人可以从数据挖掘文献中推荐书籍,这些书籍为文本挖掘项目提供了良好的理论基础,特别是文档分类或概述此过程的文章吗?
答案 0 :(得分:1)
Christopher D. Manning,Prabhakar Raghavan& HinrichSchütze有一个free information retrieval book。试试chapter 13 - Text classification & Naive Bayes。
另请参阅Manning和Schützenlp book的配套网站,特别是links for the text categorization chapter。
Fabrizio Sebastiani写了a useful tutorial about text categorization(PDF)和review paper of machine learning for text categorization (PDF)。