Question

我想知道如何以健壮和通用的方式确定网站的年龄（而不是主机/域名注册的年龄）。

以this site为例：

大多数时候，年龄/日期（2011年12月21日，在这种情况下）出现在网站上，但AFAIK没有通用的方式从页面获取此信息（可能在页面上，在META-tag，header ...）

如果你谷歌标题，谷歌将显示年龄（第一个结果;灰色;所以谷歌以某种方式提取这些信息）：

http://i.stack.imgur.com/BcXwo.png [我无权将其作为图片嵌入]

除此之外，还有其他网站有相同的新闻（我猜这是来自媒体代理商），谷歌也显示了那些年龄，但不是最后一个，尽管它出现在文本中（第一行; < i> 2011年12月21日，星期三）。

Q1）如何以通用的方式确定年龄？

Q2） Google如何做到这一点？它只是URL出现在索引中的时间吗？为什么没有最后结果的日期？

Q3）如果没有其他办法实际从 Google获取，那么如何自动完成几个域？经过一系列自动请求后，Google会阻止/阻止您发送更多请求。我查看了Google自定义搜索API，但数据没有显示在那里的结果中。

谢谢！

Answer 1

如果服务器支持它，您可以使用HTTP-Request的Last-Modified Header部分。

尝试：curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html

只获取Reply的HTTP-Header并查看输出

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 12:40:10 GMT
Server: Apache/2.2.15 (CentOS)
...
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT
Last-Modified: Wed, 09 May 2012 12:40:10 GMT
Content-Type: text/html; charset=UTF-8

Answer 2

实际上我还没有找到一种从URL获取日期的正确方法。所以我采取了另一种方法：我尝试找到一个包含该网址作为项目的Feed（来自网站本身或通过Google）。

然后我很有可能获得 pubDate 或 dc：date ，其中包含发布日期。然后就可以使用了。

感谢您的所有输入。

如何获得网站的年龄（不是域名）

2 个答案: