使用PYTHON从具有多个tumblr帖子的URL中仅提取第一篇帖子内容

时间:2018-08-24 10:45:41

标签: python-3.x url python-newspaper

我正在尝试使用python3中的报纸包从给定的输入URL中仅提取实际内容/文本。我已成功完成此操作,但我的URL之一由同一页面中的多个tumblr帖子组成。

在下面的URL中,我只希望第一篇文章的内容,即以“ 卡纳塔克邦议会选举2018年的结果接近,因为投票在星期二进行,

https://poonamparekh.tumblr.com/post/173920050130/karnataka-election-results-modi-rallies-set-to

在我从上面的URL中提取内容而不是第一篇文章的工作中,我得到了第六篇文章的内容作为输出。但这不是我所需要的。我需要第一篇文章作为我的输出。谁能帮助我实现这一目标?

这是我的代码:

from newspaper import Article

url="https://poonamparekh.tumblr.com/post/173920050130/karnataka-election-results-modi-rallies-set-to"
print(url)
article = Article(url, language='en')
article.download()
article.download_state
print('articlee_state : ',article.download_state)

if article.download_state == 2:
  try:
    article.parse()
    result=article.text[0]
    print(result[:150])
    if result=='':
      print('----MESSAGE : No description written for this post')
   except Exception as e:
    print(e)

0 个答案:

没有答案