动态获取文章发布日期/作者的有效方法?

时间:2011-02-11 16:45:57

标签: javascript php jquery external

我正在开发一个参考webapp作为我正在学习的课程的一部分,其目的是让学生快速,轻松地参考他们找到信息的材料,并且我遇到了几个问题。的东西。

首先是获得文章/网站的发布日期。在处理静态HTML站点时,这很容易,因为我可以简单地使用document.lastModified来提取它上次修改的时间。在处理更常见的CMS驱动的网站时出现问题,因为页面是动态生成的,导致document.lastModified总是返回“now”的等价物......这根本不准确。

网站的开发人员可以采取一些步骤,通过HTML5的实现使这更容易,即添加元素,可以设置其他属性来定义帖子发布的时间。像这样的网站很好,但绝大多数网站都没有使用HTML5,我不会很快看到这种变化。那里的任何人都有关于如何准确识别帖子创建时间的一些想法?

第二个是准确识别帖子或页面的作者。有几种方法可以识别这一点。首先,如果一个网站使用了hAtom微格式来识别网站的元素,这会让事情变得简单......但是,与发布日期相比并不常见。

接下来是查看网站的元数据,并根据存储在那里的内容识别作者。这种情况并不常见,通常也是网站的所有者,或者不负责该帖子的其他人,这使得它作为资源使用时有些不可靠。

3 个答案:

答案 0 :(得分:0)

如果网站有RSS源,并且该文章已经足够包含在其中,您可以从中提取有关该文章的元数据。

答案 1 :(得分:0)

对不起我帮不了多少,但是如果使用正则表达式扫描页面上的'By ___'或'Source:___'来获取信息的作者/来源呢?

至于上次修改的日期,据我所知,没有简单的方法可以抓住这个,因为正则表达日期会返回最近的文章在侧边栏,链接等等。是的,正如你所说的document.lastmodified不行。您可以考虑将“添加日期”替换为您的参考者,或类似的。

希望这对你至少有所帮助,如果没有,会给你一两个想法。

当然,如果有可用的API / RSS,您可以扫描它上次更新/发布的日期,并使用它吗?

答案 2 :(得分:0)

听起来很难做,只是因为我知道这些信息绝对没有标准化。有些网站可能会将其添加到关键字中,有些则不会。

作为媒体批评课的一部分,我做了一些拼抢,我发现每个cms都必须单独处理。总的来说,制作能够在随机网页上找到作者信息的内容听起来非常困难。

您可能能够专门从WordPress博客中获取此信息,因为这些信息有很多共性。但是设计的目的只是打击任何网站并获取特定的信息,这非常困难。

根本没有试图劝阻你,只是说你已经设定了一个非常高的目标,imho。