应用错误收集

时间：2011-01-20 13:58:17

标签： dbpedia named-entity-extraction

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。

我找到了关于DBPedia的文章。 DBpedia是一项社区活动，旨在从维基百科中提取结构化信息，并在网上提供这些信息。

有没有人使用过他们的网络服务？你知道它们的工作原理和可靠性吗？

答案 0 :(得分：21)

DBpedia 是一种非常棒的高质量资源。但是，为了将您的内容转换为一组相关的DBpedia概念，您需要在文本中准确识别它们，这至少涉及两个步骤：

在您的内容中识别DBpedia概念：这包括识别文本中的概念名称（和替代名称），并消除每个短语的所有可能含义之间的歧义。 “太阳”一词可以指根据其disambiguation page的几十个可能的概念，包括明星，报纸，人名等。这涉及实体识别，分类和链接。
确定哪些概念很有趣：例如，当文本包含术语“the”（The重定向到）时，您是否希望显示“定义文章”这一概念？

您可能需要考虑预先存在的文本分析库或服务，它支持链接到DBpedia的实体。主题索引的一个很棒的工具是Maui，它是由Alyona Medelyan在她的博士期间开发的。另一个很好的开源解决方案是David Milne在同一所大学的Wikipedia Miner。

提供与DBpedia概念链接的两个商业服务是Zemanta ~~和Extractiv~~ （允许某种程度的免费使用）。 DBpedia spotlight选项。可能提供这些功能的其他人列在：https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

披露：我[曾经]在Extractiv（已解散）工作，由Language Computer Corporation的NLP提供支持。

答案 1 :(得分：4)

您可以使用Apache Stanbol进行此过程。 Apache Stanbol的Entityhub组件根据您的需要提供生成自定义DBPedia索引。然后，您可以使用Enhancer组件从文本中提取位置，人员，位置实体。

您可以通过以下链接访问Apache Stanbol的运行演示：
http://dev.iks-project.eu/

您也可以向stanbol-dev AT incubator.apache.org提出进一步的问题。