我正在用阿拉伯语对twitter数据集进行情感分析,并完成了对数据的预处理阶段。我想使用fasttext工具构建分类器,但我不知道如何,我需要一些明确的步骤来上传数据并建立分类器,有帮助吗?
答案 0 :(得分:0)
我认为官方教程可能对您有用:https://fasttext.cc/docs/en/supervised-tutorial.html。它说明了要遵循的步骤。
我为您提供了有关数据准备的一些详细信息(本教程对其进行了简要说明)
__ label__firstlabel __label__secondlabel示例文本行
__label__thirdlabel其他示例文本行
__label__firstlabel __label__fourthlabel另一个示例文本行
数据集的每一行必须以一个或多个标签(以供分类器使用)开头,然后是文本行。
本教程中的示例如下:
head -n 12404 Cooking.stackexchange.txt> Cooking.train
tail -n 3000 Cooking.stackexchange.txt> Cooking.valid
一个想法:如果语料库不是很大,则可以使用Fasttext提供的预训练矢量(选项pretrainedVectors:https://fasttext.cc/docs/en/options.html)来提高模型的性能
有关Fasttext的更多信息,我建议本书fastText快速入门指南 由Joydeep Bhattacharjee(https://www.oreilly.com/library/view/fasttext-quick-start/9781789130997/)