如何获得网站的年龄(不是域名)

时间:2012-05-09 12:28:06

标签: date time web

我想知道如何以健壮和通用的方式确定网站的年龄(而不是主机/域名注册的年龄)。

this site为例:

大多数时候,年龄/日期(2011年12月21日,在这种情况下)出现在网站上,但AFAIK没有通用的方式从页面获取此信息(可能在页面上,在META-tag,header ...)

如果你谷歌标题,谷歌将显示年龄(第一个结果;灰色;所以谷歌以某种方式提取这些信息):

http://i.stack.imgur.com/BcXwo.png [我无权将其作为图片嵌入]

除此之外,还有其他网站有相同的新闻(我猜这是来自媒体代理商),谷歌也显示了那些年龄,但不是最后一个,尽管它出现在文本中(第一行; < i> 2011年12月21日,星期三)。

Q1)如何以通用的方式确定年龄?

Q2) Google如何做到这一点?它只是URL出现在索引中的时间吗?为什么没有最后结果的日期?

Q3)如果没有其他办法实际从 Google获取,那么如何自动完成几个域?经过一系列自动请求后,Google会阻止/阻止您发送更多请求。我查看了Google自定义搜索API,但数据没有显示在那里的结果中。

谢谢!

2 个答案:

答案 0 :(得分:0)

如果服务器支持它,您可以使用HTTP-Request的Last-Modified Header部分。

尝试:curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html

只获取Reply的HTTP-Header并查看输出

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 12:40:10 GMT
Server: Apache/2.2.15 (CentOS)
...
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT
Last-Modified: Wed, 09 May 2012 12:40:10 GMT
Content-Type: text/html; charset=UTF-8

答案 1 :(得分:0)

实际上我还没有找到一种从URL获取日期的正确方法。所以我采取了另一种方法:我尝试找到一个包含该网址作为项目的Feed(来自网站本身或通过Google)。

然后我很有可能获得 pubDate dc:date ,其中包含发布日期。然后就可以使用了。

感谢您的所有输入。