在非英语数据集上训练Fastext

时间:2019-01-25 18:11:39

标签: nlp fasttext

我正在一个新项目中,我希望将单词表示为矢量,我阅读了有关Fasttext库的信息,并且看到它们具有针对非英语语言的预训练模型。目的是预测不同单词之间的接近程度

  

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是,我是否可以在非英语数据和新闻站点的文章上训练一个Fasttext模型,以针对政治和当今主题等特定类型获得更好的结果。

  1. 我可以在非英语数据集上对其进行训练吗?
  2. 训练模型以获取10 GB文本需要多长时间?够大吗?
  3. 有更好的解决方案吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

  

我可以在非英语数据集上对其进行训练吗?

当然可以。 Fasttext的webiste上提供了157种不同语言的可用预训练模型列表,您也可以下载它们。

  

训练模型以获取10 GB文本需要多长时间?

这取决于您的系统和实现。例如,在具有16Gb ram的Mac-pro上以及通过Facebook实现的过程大约需要8-10小时。

  

足够大吗?

如果清理和预处理后的文件大小是10Gb,那是足够的。

  

有更好的解决方案吗?

更好的解决方案意味着什么?如果我穿上鞋子,我会先尝试训练有素的模特。