如何查找Web上的文档是否与其他文档在语义上相关?

时间:2011-05-25 09:13:15

标签: semantic-web semantic-markup semantic-analysis

我的问题是,给定document d1 on the web and a document d2如何判断d1和d2在语义上是相关的。是否有一些API可以进行一些自然语言处理,可能会给我一个提示,因为d1可能与d2相关。 我需要它严重和尿布。请帮助!

3 个答案:

答案 0 :(得分:2)

您可以使用特殊的微格式。请点击http://microformats.org/

了解更多信息

简单示例:

<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a>

Rel-License是几种微格式之一。通过将rel =“license”添加到超链接,页面指示该超链接的目标是当前页面的许可证。

答案 1 :(得分:1)

对于语义相关的文档,您可以使用特殊词汇表(如SKOS)并将它们与本体相关联。或者你可以直接在你的文档中使用 - 如silex所述 - 微格式。

对于自然语言处理,存在可以提取信息的不同工具,如GATE。但这不是一项微不足道的任务。

也许你可以改进你想做的事情?您想要定义哪些文档是相关的吗?或者您是否希望软件找出哪些文档可能相关?

答案 2 :(得分:0)

您需要查看“named entity extraction”即自然语言处理,以提取两个文档共有的可能实体。这些通常是人,地点,事件,时间,组织。

请查看OpenCalais http://www.opencalais.com/以了解此类技术的一些实际应用。