我有一个网址列表,我正在尝试收集他们的“说明”。通过描述我的意思是什么,例如,如果你用Google搜索链接。例如,http://stackoverflow.com“> Google:http://stackoverflow.com将说明显示为
独立于语言的协作 编辑的问答网站 程序员。问题和解答 用户投票和标签显示。
这是我正在尝试为我拥有的网址积累的数据。
我尝试解析网址的元描述,但大多数都缺少元描述(但谷歌和其他搜索引擎设法以某种方式获取描述)。
有什么想法吗?我应该只是“谷歌”每个链接并刮掉数据?我有一种感觉谷歌不喜欢这个...
谢谢你们。
答案 0 :(得分:1)
如果/当缺少描述元标记时,不同的搜索引擎具有不同的算法来从页面中获取描述。有些人甚至忽略了标签。
如果你想要Google的描述,最准确的方法就是抓住它。否则,您可以自己编写或浏览网页上的代码。
答案 1 :(得分:1)
这些称为片段。
Google使用专有(可能patented)方法获取此信息,因此没有简单的答案。
正如您所建议的那样,如果它存在,他们将使用元描述信息。 (How to set the meta-information to help Google。)
他们还会尊重页面作者对 NOT 包含片段的请求。 (How to prevent Google from displaying snippets)你也应该尊重这一点(当然还有robots.txt。)
您可能会对现有的自动摘要包感到满意,例如OTS。
答案 2 :(得分:0)
您可能需要查看AboutUs.org(即http://www.aboutus.org/StackOverflow.com)。 但是,该网站几乎没有机会有一个aboutus页面,也没有元描述。
答案 3 :(得分:0)
有些信息可以解释谷歌如何做到这一点:
答案 4 :(得分:0)
我不熟悉Google APIs,但也许有正式的方式来获取此类信息。
答案 5 :(得分:0)
有趣。有些消息来源比其他消息更好。
对于“audiotuts.com”google的描述比AboutUs.com更糟糕。
谷歌
11月18日,乔尔·法尔科纳将军· 最近,一名AUDIOTUTS读者向我询问了创作过程。虽然这个 是一个无法成为的主题 ...
AboutUs.com:
AUDIOTUTS是一个博客/教程网站 音乐家,制作人和音频 瘾君子!它是姊妹网站 流行的PSDTUTS,VECTORTUTS和 NETTUTS。
我讨厌像这样的问题......它们应该是微不足道的,但事实并非如此!
答案 6 :(得分:0)
如果您可以假设英语内容,您可以先查找元描述,如果这不起作用,您可以查找前两个或三个类似句子的单词序列。
我工作的产品寻找包含多个> 1的序列的第一个P或DIV。 n由句点分隔的“单词”。它将使用两个或三个类似句子的序列,最多x个总词,作为摘要段落。它不是100%准确,但对于普通情况来说足够好。单词的数量被调整了几次,以消除导航元素之类的东西。