我想知道如何以健壮和通用的方式确定网站的年龄(而不是主机/域名注册的年龄)。
以this site为例:
大多数时候,年龄/日期(2011年12月21日,在这种情况下)出现在网站上,但AFAIK没有通用的方式从页面获取此信息(可能在页面上,在META-tag,header ...)
如果你谷歌标题,谷歌将显示年龄(第一个结果;灰色;所以谷歌以某种方式提取这些信息):
http://i.stack.imgur.com/BcXwo.png [我无权将其作为图片嵌入]
除此之外,还有其他网站有相同的新闻(我猜这是来自媒体代理商),谷歌也显示了那些年龄,但不是最后一个,尽管它出现在文本中(第一行; < i> 2011年12月21日,星期三)。
Q1)如何以通用的方式确定年龄?
Q2) Google如何做到这一点?它只是URL出现在索引中的时间吗?为什么没有最后结果的日期?
Q3)如果没有其他办法实际从 Google获取,那么如何自动完成几个域?经过一系列自动请求后,Google会阻止/阻止您发送更多请求。我查看了Google自定义搜索API,但数据没有显示在那里的结果中。
谢谢!
答案 0 :(得分:0)
如果服务器支持它,您可以使用HTTP-Request的Last-Modified Header部分。
尝试:curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html
只获取Reply的HTTP-Header并查看输出
HTTP/1.1 200 OK
Date: Wed, 09 May 2012 12:40:10 GMT
Server: Apache/2.2.15 (CentOS)
...
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT
Last-Modified: Wed, 09 May 2012 12:40:10 GMT
Content-Type: text/html; charset=UTF-8
答案 1 :(得分:0)
实际上我还没有找到一种从URL获取日期的正确方法。所以我采取了另一种方法:我尝试找到一个包含该网址作为项目的Feed(来自网站本身或通过Google)。
然后我很有可能获得 pubDate 或 dc:date ,其中包含发布日期。然后就可以使用了。
感谢您的所有输入。