我正在一个新项目中,我希望将单词表示为矢量,我阅读了有关Fasttext库的信息,并且看到它们具有针对非英语语言的预训练模型。目的是预测不同单词之间的接近程度
我想知道的是,我是否可以在非英语数据和新闻站点的文章上训练一个Fasttext模型,以针对政治和当今主题等特定类型获得更好的结果。
谢谢!
答案 0 :(得分:1)
我可以在非英语数据集上对其进行训练吗?
当然可以。 Fasttext的webiste上提供了157种不同语言的可用预训练模型列表,您也可以下载它们。
训练模型以获取10 GB文本需要多长时间?
这取决于您的系统和实现。例如,在具有16Gb ram的Mac-pro上以及通过Facebook实现的过程大约需要8-10小时。
足够大吗?
如果清理和预处理后的文件大小是10Gb,那是足够的。
有更好的解决方案吗?
更好的解决方案意味着什么?如果我穿上鞋子,我会先尝试训练有素的模特。