有没有办法检查文章在任意网站上发布的那一天?

时间:2013-10-15 14:52:55

标签: language-agnostic web

我想在没有“刮”页面的情况下这样做,即使有一种方法不是严格普遍的。经过一些环顾四周,我发现你可以从标题中获取最后修改日期,但我发现它很无用,因为对于很多网站来说,返回的日期只是过去几秒钟。这似乎是因为页面上的一些小变化(如评论)。

2 个答案:

答案 0 :(得分:2)

检查网站是否提供原子Feed,它应该具有发布日期。例如,the feed for your question有:

    # removed stuff
    <entry>
        # trimmed some more stuff
        <author>
            <name>Hassan</name>
            <uri>https://stackoverflow.com/users/377628</uri>
        </author>
        <link rel="alternate" href="https://stackoverflow.com/questions/19384363/is-there-a-way-to-check-the-day-an-article-was-published-on-an-arbitrary-website" />
        <published>2013-10-15T14:52:55Z</published>
        <updated>2013-10-15T14:52:55Z</updated>
        # more stuff here

答案 1 :(得分:2)

要在任何站点上可靠地保存,任何给定的信息都必须是HTTP标头块的一部分。 “首次发布”或“已创建”或类似内容没有HTTP标头。最好的可用是“Last-Modified”,因为这是唯一在HTTP上下文中有意义的值。

为了说明,静态页面可能具有文件系统创建日期,但整个内容可能已被替换。文件系统的“创建日期”不需要更改,但最后修改日期将不会更改。类似地,对于动态创建的页面,创建页面的软件必须依赖于系统内的某个日期,但同样,内容可能在创建之后被部分或完全替换。难点在于决定变更构成新发布的页面的位置,或仅仅是旧版本的修改版本。

某些联合格式(如Atom或RSS)可能会在其内容中包含“发布日期”,但这不会成为HTTP黑客的一部分,因此根据您的问题,不会在任意网站上提供。< / p>

您可以找到HTTP标头引用here