如何获取URL的描述

时间:2008-11-19 05:42:39

标签: search url metadata

我有一个网址列表,我正在尝试收集他们的“说明”。通过描述我的意思是什么,例如,如果你用Google搜索链接。例如,http://stackoverflow.com“> Google:http://stackoverflow.com将说明显示为

  

独立于语言的协作   编辑的问答网站   程序员。问题和解答   用户投票和标签显示。

这是我正在尝试为我拥有的网址积累的数据。

我尝试解析网址的元描述,但大多数都缺少元描述(但谷歌和其他搜索引擎设法以某种方式获取描述)。

有什么想法吗?我应该只是“谷歌”每个链接并刮掉数据?我有一种感觉谷歌不喜欢这个...

谢谢你们。

7 个答案:

答案 0 :(得分:1)

如果/当缺少描述元标记时,不同的搜索引擎具有不同的算法来从页面中获取描述。有些人甚至忽略了标签。

如果你想要Google的描述,最准确的方法就是抓住它。否则,您可以自己编写或浏览网页上的代码。

答案 1 :(得分:1)

这些称为片段。

Google使用专有(可能patented)方法获取此信息,因此没有简单的答案。

正如您所建议的那样,如果它存在,他们将使用元描述信息。 (How to set the meta-information to help Google。)

他们还会尊重页面作者对 NOT 包含片段的请求。 (How to prevent Google from displaying snippets)你也应该尊重这一点(当然还有robots.txt。)

您可能会对现有的自动摘要包感到满意,例如OTS

答案 2 :(得分:0)

您可能需要查看AboutUs.org(即http://www.aboutus.org/StackOverflow.com)。 但是,该网站几乎没有机会有一个aboutus页面,也没有元描述。

答案 3 :(得分:0)

有些信息可以解释谷歌如何做到这一点:

答案 4 :(得分:0)

我不熟悉Google APIs,但也许有正式的方式来获取此类信息。

答案 5 :(得分:0)

有趣。有些消息来源比其他消息更好。

对于“audiotuts.com”google的描述比AboutUs.com更糟糕。

谷歌

  

11月18日,乔尔·法尔科纳将军·   最近,一名AUDIOTUTS读者向我询问了创作过程。虽然这个   是一个无法成为的主题   ...

AboutUs.com:

  

AUDIOTUTS是一个博客/教程网站   音乐家,制作人和音频   瘾君子!它是姊妹网站   流行的PSDTUTS,VECTORTUTS和   NETTUTS。

我讨厌像这样的问题......它们应该是微不足道的,但事实并非如此!

答案 6 :(得分:0)

如果您可以假设英语内容,您可以先查找元描述,如果这不起作用,您可以查找前两个或三个类似句子的单词序列。

我工作的产品寻找包含多个> 1的序列的第一个P或DIV。 n由句点分隔的“单词”。它将使用两个或三个类似句子的序列,最多x个总词,作为摘要段落。它不是100%准确,但对于普通情况来说足够好。单词的数量被调整了几次,以消除导航元素之类的东西。