我需要提取新闻文章的不同字段,除了新闻文章的发布日期之外,我能够自动化大部分内容。目前,我手动转到相应的网站,检查发布日期周围的HTML标记,并编写一个jQuery来提取日期并在pyquery中实现相同的日期。但是,我想删除这一个手动步骤,并为纽约时报等新闻网站编写通用的网络刮板。 我能想到的最接近的是编写了许多可以与文章的DOM中的日期时间格式相匹配的正则表达式,但无法弄清楚它如何区分实际发布的日期和可能的任何其他日期。出现在实际文章中。我研究并意识到Google和Duckduckgo都在搜索结果中显示了文章的时间戳,因此必须能够实现这一点。
编辑: 我相信我的问题的语言不是很清楚所以我的问题是,是否有办法从任何新闻文章中自动删除发布日期,即可以从博客文章或新闻文章中提取发布日期的通用爬虫。
答案 0 :(得分:1)
没有通用的方法来获取新闻文章的撰写日期(尽管您可以设计解析每个新闻网站的规则),但您可以使用{获取网页的最后修改日期 {1}}在Javascript中或解析HTTP header中的document.lastModified
字段。