标签: r classification data-mining text-classification n-gram
我想从一组用户生成的情绪中生成n-gram。所有语句都放在我的数据集中的一列中。
对于我的大部分文本处理和文本挖掘任务,我一直使用包quanteda,tokenizers和tm。
quanteda
tokenizers
tm
现在我的问题是,我如何构建我的数据集,以便能够使用n-gram作为学习模型的功能的一部分。令牌是否放在不同的列中?或者令牌放在一列中,让分类任务完成它们的工作?