我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。
我找到了关于DBPedia的文章。 DBpedia是一项社区活动,旨在从维基百科中提取结构化信息,并在网上提供这些信息。
有没有人使用过他们的网络服务?你知道它们的工作原理和可靠性吗?
答案 0 :(得分:21)
DBpedia 是一种非常棒的高质量资源。但是,为了将您的内容转换为一组相关的DBpedia概念,您需要在文本中准确识别它们,这至少涉及两个步骤:
在您的内容中识别DBpedia概念:这包括识别文本中的概念名称(和替代名称),并消除每个短语的所有可能含义之间的歧义。 “太阳”一词可以指根据其disambiguation page的几十个可能的概念,包括明星,报纸,人名等。这涉及实体识别,分类和链接。
确定哪些概念很有趣:例如,当文本包含术语“the”(The重定向到)时,您是否希望显示“定义文章”这一概念?
您可能需要考虑预先存在的文本分析库或服务,它支持链接到DBpedia的实体。主题索引的一个很棒的工具是Maui,它是由Alyona Medelyan在她的博士期间开发的。另一个很好的开源解决方案是David Milne在同一所大学的Wikipedia Miner。
提供与DBpedia概念链接的两个商业服务是Zemanta 和Extractiv (允许某种程度的免费使用)。 DBpedia spotlight选项。可能提供这些功能的其他人列在:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
披露:我[曾经]在Extractiv(已解散)工作,由Language Computer Corporation的NLP提供支持。
答案 1 :(得分:4)
您可以使用Apache Stanbol进行此过程。 Apache Stanbol的Entityhub
组件根据您的需要提供生成自定义DBPedia索引。然后,您可以使用Enhancer
组件从文本中提取位置,人员,位置实体。
以下邮件主题可能对您有所帮助 http://markmail.org/message/52266yl5ohijxiof
您可以通过以下链接访问Apache Stanbol的运行演示:
http://dev.iks-project.eu/
您也可以向stanbol-dev AT incubator.apache.org
提出进一步的问题。