非英语术语提取

时间:2010-12-30 09:50:32

标签: nlp

我正在寻找一个用多种语言进行术语提取的开源项目。

我已经找到了Yahoo BOSS Term Extraction Web Service,这很好。但是,除英语外,它没有处理其他语言。

您知道任何支持更多语言的开源术语提取项目吗?

谢谢!

3 个答案:

答案 0 :(得分:2)

从我在制作中使用过的包装或者刚刚玩过的包装中,以下是最全面和最积极维护的包装:

  1. GATE - 适用于各种自然语言处理任务的计算机体系结构,可在GNU公共许可证下使用

  2. Ling-Pipe(Java) - 一套用于人类语言语言分析的Java库,可以将实体提及链接到数据库条目,发现关系,集群文档......

    < / LI>
  3. OpenNLP(Java) - 用于自然语言处理(NLP)的Java机器学习工具包。它支持最常见的NLP任务。

  4. NLTK(Python) - NLTK是构建Python程序以处理人类语言数据的领先平台。

  5. Proxem Antelope(。Net) - 面向对象的高级自然语言处理环境

  6. Scala-NLP(Scala)

  7. Stanford NLP(Java)

  8. 此外,还有一些很好的Web API,例如:

    1. Zemanta

    2. Open-Calais

答案 1 :(得分:0)

GATE - 文本工程的一般架构:http://gate.ac.uk/

将进行术语提取,关键词排序和选择,情感分析,以及所有好事。

免费开源,来自英国。是否有许多语言,包括阿拉伯语。

答案 2 :(得分:0)

你可以尝试Linnaeus - 它有点从科学论文中提取物种名称,但我认为你可以给它自己的词典,并用于其他领域/任务。