标签: html datetime html-parsing web-crawler
我目前正在编写一个小型抓取程序,试图获取网页并将其编入索引。
我想知道网页何时制作或关于。
例如,通常在当天创建日期的新闻页面。
如何准确获取日期?
一个天真的想法是从HTML获取日期。通常情况下,新闻或博客页面会在某处写入日期。但由于HTML没有特定的标签,我怎么才能得到它?
尝试不同的可能日期格式?
任何人都可以给我一些建议吗?或者我可以使用任何图书馆吗?
由于