我在哪里可以找到这样的语料库?我要求它在令牌(单词)级别建立印地语和英语之间的语言检测器。
例如,像罗马字母中的印地语维基百科这样的东西会非常有用。或短篇小说,社交媒体帖或推文,或博客?有什么想法吗?
据我所知,现有的音译引擎并不是那么好。如果有一个好的,也会考虑使用它。
答案 0 :(得分:1)
您可以尝试hindibible.org使用wget下载他们的网站,您将获得音译印地文的全部圣经。你能帮我看一下devnagri的文字吗?他们的网站在印地文显示文本,但我下载的html文件是音译英文。我希望能够在devnagri中读取那些音译的html文件,以防网站决定关闭其服务器。
答案 1 :(得分:1)
通过在https://translate.google.co.in/上选择“文本”选项进行搜索,Google翻译会提供音译结果。
但是,有一个陷阱。字符限制为5k。令人惊讶的是,谷歌在翻译其他地方时没有提供此功能。 (Google文档,Gmail等) 如果您能够找到解决问题的更可行且更可靠的解决方案,请告诉我。