使用正则表达式查找页面中的所有时间戳记

时间:2018-07-02 22:07:31

标签: python regex time web-scraping timezone

我正在尝试查找使用Python在线发布的报纸文章的出版日期,但是每个网站的html都使用各自独特的样式,并且页面meta的出版时间在不同域之间不一致。

我尝试使用dateparser程序包,但是它包含一个相对约会系统,该系统错误地读取了某些单词(例如字符串:“一天”)作为相对时间。

是否存在一个很好的正则表达式列表,有人可以知道/可以共享,包括尽可能多的格式化时间戳的方法,包括对读取时区的支持?

1 个答案:

答案 0 :(得分:0)

通常,不可以-这项任务是不可能的,因为人类会推断出您可能没有考虑到的情况。

请考虑您的代码是否遇到诸如01/05/13之类的字符串。那是几号?是2013年1月5日吗?还是2013年5月1日?还是1801年5月13日?普通读者可能会了解本地化和发布的世纪,但是除非单独提供,否则计算机代码不会。

同样,请考虑您的代码是否遇到诸如3.14之类的字符串。是3月14日吗?还是数学符号π的近似值?没有上下文了解周围的文字,就不可能知道。