应用错误收集

时间：2018-07-02 22:07:31

标签： python regex time web-scraping timezone

我正在尝试查找使用Python在线发布的报纸文章的出版日期，但是每个网站的html都使用各自独特的样式，并且页面meta的出版时间在不同域之间不一致。

我尝试使用dateparser程序包，但是它包含一个相对约会系统，该系统错误地读取了某些单词（例如字符串：“一天”）作为相对时间。

是否存在一个很好的正则表达式列表，有人可以知道/可以共享，包括尽可能多的格式化时间戳的方法，包括对读取时区的支持？

答案 0 :(得分：0)

通常，不可以-这项任务是不可能的，因为人类会推断出您可能没有考虑到的情况。

请考虑您的代码是否遇到诸如01/05/13之类的字符串。那是几号？是2013年1月5日吗？还是2013年5月1日？还是1801年5月13日？普通读者可能会了解本地化和发布的世纪，但是除非单独提供，否则计算机代码不会。

同样，请考虑您的代码是否遇到诸如3.14之类的字符串。是3月14日吗？还是数学符号π的近似值？没有上下文了解周围的文字，就不可能知道。