我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题,其数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试分析并提供“语言”领域的一些见解。但它应该适用于大型数据集,以便我可以使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。
答案 0 :(得分:3)
如果你有一些“不寻常”语言的大型语料库(在“已经执行了有限数量的计算语言学”的意义上),重复一些现有的计算语言学工作已经为非常流行的语言(如英语) ,中文,阿拉伯语,...)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合行业 - 当我在IBM Research的计算语言学中时,我从组合中获得了有趣的里程一个意大利语的语料库,并重复[[在罗马相对较新的IBM科学中心]]非常类似于约克敦高地的IBM研究团队[[我曾参与其中]]已经为英语做过的工作。< / p>
努力工作通常是找到/准备这样的语料库(尽管IBM意大利全心全意帮助我与拥有相关数据的出版公司联系),但这当然是我工作中最重要的部分。
所以,这个问题很突出,只有你能回答它:你可以访问什么语料库,或者可以获得访问(和清理等),特别是在“不寻常”的语言中?如果所有你能做的就是,例如,英语,使用已经很受欢迎的语料库,做新奇有趣的工作的机会当然更难,但当然可能会有一些。
顺便说一句,我认为你在严格考虑处理“书面”文本,对吧?如果您有一个口语材料的语料库(理想情况下带有好的成绩单),机会将是无穷无尽的(处理口头文本的工作要少得多,例如参数化发音不同的母语人士对同一书面文本的变体 - 实际上,在本科CL课程中,这些问题通常都不会被提及。)。答案 1 :(得分:3)
CL中的一个计算密集型问题是从大型语料库中推断出语义。基本思想是采用大量文本并从其分布中推断出单词(同义词,反义词,下位词,上位词等)之间的语义关系,即它们与之相关或接近的单词。
这涉及大量的数据预处理,然后可能涉及许多最近邻搜索和N×N比较,这非常适合MapReduce风格的并行化。
看一下本教程:
http://wordspace.collocations.de/doku.php/course:acl2010:start
答案 2 :(得分:2)
从BioMed Central发布的60K OA论文中下载300M字。尝试发现命题态度和相关的情绪结构。重点是生物学文献充满了对冲和相关的结构,因为难以对生物世界及其生物做出平坦的陈述性陈述 - 它们的形式和功能以及遗传和生物化学。
我对Hadoop的看法是,它是一个需要考虑的工具,但在完成设定目标的重要任务后要考虑。您的目标,策略和数据应该决定您如何进行计算。小心锤子寻找钉子研究方法。
这是我的实验室努力工作的一部分。
Bob Futrelle
BioNLP.org
东北大学
答案 3 :(得分:1)
正如您所提到的,有一个名为NLTK的Python工具包可以与dumbo一起使用来使用Hadoop。
PyCon 2010就这个问题进行了很好的讨论。您可以使用以下链接访问演讲中的幻灯片。