Python Goose无法提取日期

时间:2013-09-17 09:48:02

标签: python goose

我正在使用Python Goose。您可以在this link

中找到它

我想提取已发布的日期,但是当我运行:

g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date

我的结果是None

我在很多网站上都尝试过,结果是None

有什么建议吗?

2 个答案:

答案 0 :(得分:1)

我刚检查了来源的相关部分:crawler.py publish_date提取目前已被注释掉

# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)

进一步检查发现,如果您取消注释上述行,您将能够定义自定义日期提取器。但是,Goose中没有实现默认日期提取器。请参阅此方法:https://github.com/grangier/python-goose/blob/master/goose/configuration.py

中的set_publishdate_extractor

答案 1 :(得分:0)

自2014年以来,此功能已在ID, COL1, COL2 VALUE '1', 'OBJ1', 'OBJ2', '5' '4', 'OBJ3', 'OBJ1', '4' '5', 'OBJ3', 'OBJ4', '6' 中的python-goose中实现,因此extractors/publishdate.py会返回某个日期。但仅在以下元数据字段中可用:

article.publish_date