标签: ruby nlp lda
我正在使用LDA-ruby来执行中文推文内容的主题建模。但是,当使用txt文件作为我自己的TextCorpus时,结果很奇怪。第一次,结果主题是内容中出现的所有英文字母;然后我删除了语料库输入文件的所有字母,结果仍然没有意义。那么lda-ruby只适用于英语语料库或构建我自己的语料库所需的任何特殊要求吗? (顺便说一句,新的ruby / nlp)
如果有任何关于如何构建语料库(格式/语言)的解决方案,请提前感谢。