我正在进行文本分类/标记任务,我想问一下哪种数据结构最适合我。我所拥有的训练数据集大约有4个演出(经过一些清理,但如果我丢弃这些罕见的单词,应该更小),有600万个文件。每个文档都有4个字段:
我刚刚完成了清理阶段(阻塞,停止单词等),我即将把它们转换成带有scikit的TF-IDF单词向量,因此输出是一个scipy稀疏矩阵。我想将Title和Body保持为两个向量,并在我决定赋予Title的权重时在稍后阶段将它们组合起来。标题和正文是稀疏向量,但它们使用相同的字典构建,因此具有相同的否。列。
表示此信息的最佳方式是什么?我来自R所以我只是习惯于在data.tables / data frames中存储东西,但这似乎不适用于文本分类和稀疏矩阵。我想做的一件事是创建我自己的“文档”类,并且只有一个这些对象的列表来表示语料库。我不认为这是非常有效的,因为我可能想要做return all docs with the Tag apple
之类的事情。
我是Python和文本分类的新手 - 非常感谢任何帮助,我对之前完成它的人非常感兴趣。
谢谢!