Python:报纸模块 - 使用html标签提取文本

时间:2018-03-23 21:35:25

标签: python python-3.x python-newspaper

我做了一个代码:

from newspaper import Article
url = 'http://www.infomoney.com.br/mercados/acoes-e-indices/noticia/7345670/dow-jones-tem-nova-derrocada-puxa-ibovespa-para-segunda-semana'
a = Article(url, language='pt')
a.download()
a.parse()
print(a.text)

但是我需要带有html标签的文本,例如,我需要在文本中使用img标签。

2 个答案:

答案 0 :(得分:0)

您可以通过html成员获取HTML。

from newspaper import Article
url = 'http://www.infomoney.com.br/mercados/acoes-e-indices/noticia/7345670/dow-jones-tem-nova-derrocada-puxa-ibovespa-para-segunda-semana'
a = Article(url, language='pt')
a.download()
a.parse()
print(a.text)

html = a.html
print(html)

答案 1 :(得分:0)

这个问题是一年前提出的,但是有人可以通过Google找到这个问题。

您可以使用“ a.article_html”在文章文本中获取图片和其他html。

from newspaper import Article

a = Article('https://www.nytimes.com/2019/04/25/us/politics/joe-biden-anita-hill.html', 
    keep_article_html=True, 
    language='en')
a.download()
a.parse()

print(a.html) # This article's unchanged and raw HTML
print(a.article_html) # The HTML of this article's main node

记住参数“ keep_article_html = True”