我正试图从新闻机构中搜集文章,但我无法弄清楚如何使用python-goose获取文章的作者。我已经阅读了文档,源代码和搜索过的谷歌。
from goose import Goose
def getArticle(url):
g = Goose()
article = g.extract(url=url)
print article.title
# print article.author
# print article.writer
那么,是否有使用python-goose提取文章作者的内置方法?
python-goose代码和文档的链接:http://github.com/grangier/python-goose
答案 0 :(得分:2)
Goose将尝试提取以下信息:
- 文章的正文
- 文章的主要图片
- 文章中嵌入的任何Youtube / Vimeo电影
- 元描述
- 元标记
他们不承诺得到作者;您需要查看元数据以查看它是否包含在内并手动提取。
答案 1 :(得分:0)
报纸可能满足您的要求。
以下是用法:>>> article.authors [u'Leigh Ann Caldwell','John Honway']
您可以从其文档或Github中找到更多详细信息。 http://newspaper.readthedocs.org/en/latest/
它非常简单和强大。