标签: python nlp multilingual corpus language-detection
我想构建一种语言检测应用程序,用于识别文档的语言。
除了我自己的数据外,我还想使用一些多语言语料库,因为我认为它们将有助于分类。
我对主要的欧洲语言感兴趣:英语,法语,德语,意大利语,西班牙语等。
我不确定在哪里可以找到它们。
NTLK似乎没有与多种语言完全一样的东西。
您还有其他建议吗?
否则,我可以只从Wiki以多种语言对数据进行网络爬取。