如何使用python-goose获取文章的作者

时间:2014-01-12 19:10:31

标签: python web-scraping goose

我正试图从新闻机构中搜集文章,但我无法弄清楚如何使用python-goose获取文章的作者。我已经阅读了文档,源代码和搜索过的谷歌。

from goose import Goose

def getArticle(url):
    g = Goose()
    article = g.extract(url=url)
    print article.title
    # print article.author
    # print article.writer

那么,是否有使用python-goose提取文章作者的内置方法?

python-goose代码和文档的链接:http://github.com/grangier/python-goose

2 个答案:

答案 0 :(得分:2)

来自their documentation

  

Goose将尝试提取以下信息:

     
      
  • 文章的正文
  •   
  • 文章的主要图片
  •   
  • 文章中嵌入的任何Youtube / Vimeo电影
  •   
  • 元描述
  •   
  • 元标记
  •   

他们不承诺得到作者;您需要查看元数据以查看它是否包含在内并手动提取。

答案 1 :(得分:0)

报纸可能满足您的要求。

以下是用法:>>> article.authors [u'Leigh Ann Caldwell','John Honway']

您可以从其文档或Github中找到更多详细信息。 http://newspaper.readthedocs.org/en/latest/

它非常简单和强大。