应用错误收集

时间：2019-01-25 18:11:39

标签： nlp fasttext

我正在一个新项目中，我希望将单词表示为矢量，我阅读了有关Fasttext库的信息，并且看到它们具有针对非英语语言的预训练模型。目的是预测不同单词之间的接近程度

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是，我是否可以在非英语数据和新闻站点的文章上训练一个Fasttext模型，以针对政治和当今主题等特定类型获得更好的结果。

谢谢！

答案 0 :(得分：1)

我可以在非英语数据集上对其进行训练吗？

当然可以。 Fasttext的webiste上提供了157种不同语言的可用预训练模型列表，您也可以下载它们。

训练模型以获取10 GB文本需要多长时间？

这取决于您的系统和实现。例如，在具有16Gb ram的Mac-pro上以及通过Facebook实现的过程大约需要8-10小时。

足够大吗？

如果清理和预处理后的文件大小是10Gb，那是足够的。

有更好的解决方案吗？

更好的解决方案意味着什么？如果我穿上鞋子，我会先尝试训练有素的模特。