我想通过加载我自己的数据集来尝试一些算法。我特别感兴趣的是加载文本文件(非常类似于20个NewsGroups数据集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api)。是否有任何文档可以解释加载样本数据集以外的数据的格式(和过程)?
感谢。
答案 0 :(得分:2)
TfidfVectorizer和scikit-learn中的文本向量化类只需将Python unicode字符串列表作为输入。因此,您可以根据需要加载文本:使用SQLAlchemy的数据库查询,来自HTTP API的json流,CSV文件或文件夹中的随机文本文件。
对于最后一个选项,如果类信息存储在包含文本文件的文件夹名称中,则可以使用load_files实用程序功能。