应用错误收集

计算语言学项目的想法使用Hadoop MapReduce

时间：2010-03-01 02:31:07

标签： hadoop mapreduce nlp

我需要做一个关于计算语言学课程的项目。是否存在任何有趣的“语言”问题，其数据密集程度足以使用Hadoop map reduce。解决方案或算法应该尝试分析并提供“语言”领域的一些见解。但它应该适用于大型数据集，以便我可以使用hadoop。我知道有一个用于hadoop的python自然语言处理工具包。

4 个答案:

答案 0 :(得分：3)

如果你有一些“不寻常”语言的大型语料库（在“已经执行了有限数量的计算语言学”的意义上），重复一些现有的计算语言学工作已经为非常流行的语言（如英语），中文，阿拉伯语，...）是一个非常合适的项目（特别是在学术环境中，但它也可能非常适合行业 - 当我在IBM Research的计算语言学中时，我从组合中获得了有趣的里程一个意大利语的语料库，并重复[[在罗马相对较新的IBM科学中心]]非常类似于约克敦高地的IBM研究团队[[我曾参与其中]]已经为英语做过的工作。< / p>

努力工作通常是找到/准备这样的语料库（尽管IBM意大利全心全意帮助我与拥有相关数据的出版公司联系），但这当然是我工作中最重要的部分。

所以，这个问题很突出，只有你能回答它：你可以访问什么语料库，或者可以获得访问（和清理等），特别是在“不寻常”的语言中？如果所有你能做的就是，例如，英语，使用已经很受欢迎的语料库，做新奇有趣的工作的机会当然更难，但当然可能会有一些。

顺便说一句，我认为你在严格考虑处理“书面”文本，对吧？如果您有一个口语材料的语料库（理想情况下带有好的成绩单），机会将是无穷无尽的（处理口头文本的工作要少得多，例如参数化发音不同的母语人士对同一书面文本的变体 - 实际上，在本科CL课程中，这些问题通常都不会被提及。）。

答案 1 :(得分：3)

CL中的一个计算密集型问题是从大型语料库中推断出语义。基本思想是采用大量文本并从其分布中推断出单词（同义词，反义词，下位词，上位词等）之间的语义关系，即它们与之相关或接近的单词。

这涉及大量的数据预处理，然后可能涉及许多最近邻搜索和N×N比较，这非常适合MapReduce风格的并行化。

看一下本教程：

http://wordspace.collocations.de/doku.php/course:acl2010:start

答案 2 :(得分：2)

从BioMed Central发布的60K OA论文中下载300M字。尝试发现命题态度和相关的情绪结构。重点是生物学文献充满了对冲和相关的结构，因为难以对生物世界及其生物做出平坦的陈述性陈述 - 它们的形式和功能以及遗传和生物化学。

我对Hadoop的看法是，它是一个需要考虑的工具，但在完成设定目标的重要任务后要考虑。您的目标，策略和数据应该决定您如何进行计算。小心锤子寻找钉子研究方法。

这是我的实验室努力工作的一部分。

Bob Futrelle

BioNLP.org

东北大学

答案 3 :(得分：1)

正如您所提到的，有一个名为NLTK的Python工具包可以与dumbo一起使用来使用Hadoop。

PyCon 2010就这个问题进行了很好的讨论。您可以使用以下链接访问演讲中的幻灯片。

The Python and the Elephant: Large Scale Natural Language Processing with NLTK and Dumbo