Question

我刚开始使用Python学习网页抓取。我的目标是从http://money.rediff.com/companies/Bajaj-Auto-Ltd/10540026废弃Bajaj Auto Ltd.的实时新闻。

问题：我无法提取内容（即新闻）。

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'http://money.rediff.com/companies/Bajaj-Auto-Ltd/10540026'
data = urlopen(url)
soup = BeautifulSoup(data)

te=soup.find('a',attrs={'target':'_jbpinter'})
lis=te.find_all_next('a',attrs={'target':'_jbpinter'})
#print(lis)

for li in lis:
    print(li.find('a').contents[0])

我收到错误“AttributeError：'NoneType'对象没有属性'contents'” 而且我没有得到理想的结果。

任何意见都将受到赞赏。

Answer 1

您正试图获取a代码两次。

替换

for li in lis:
    print(li.find('a').contents[0])

与

for li in lis:
    print(li.get_text())

你得到这个输出：

Need Different Rates For Different Products: Rahul Bajaj on GST
Reforms irrespective of Bihar results: Bajaj
Auto shares in focus; Tata Motors up over 5%
We believe new Avenger will stimulate the market: Bajaj Auto's Eric Vas
BHP Billiton pins future of Indonesian coal mine on new...

使用python进行Web Scraping数据

1 个答案: