我是数据挖掘的新手。 我想做一些数据挖掘,而数据不是英文,它们是日文或中文的措辞。
数据挖掘是否支持这些语言? 如果是的话,我们怎样才能实现?任何工具和博客。
感谢您能提供帮助。
答案 0 :(得分:0)
答案和往常一样:是和否。
虽然实际上没有理论上的问题但是亚洲语言存在一些实际问题。文本的典型数据挖掘管道由
组成第一步和第四步实际上是一些亚洲语言的问题。在欧洲语言,尤其是英语。英语单词从空格开始,以空格结束。在某些亚洲语言中,如果不理解句子的含义,就无法将一系列字符标记为单词。事实上,在某些语言中,这是非常困难的。 (c.f.关于令牌化的维基对于使用古代希腊语,中文,[1]或泰语等没有单词边界的scripttio continua编写的语言来说,标记化特别困难。)
同样阻止可能会造成问题。在英语中,它是非常好理解的。在其他语言中,它取决于。
如果你能解决这两个问题,你也可以在亚洲语言中应用典型的文本挖掘技术。