使用BeautifulSoup(Python)从网站提取特定信息

时间:2015-08-15 23:39:19

标签: python

我访问以下网站以提取股票清单:

http://www.barchart.com/stocks/performance/12month.php

我使用以下代码:

from bs4 import BeautifulSoup
import requests

url=raw_input("http://www.barchart.com/stocks/performance/12month.php")
r = requests.get("http://www.barchart.com/stocks/performance/12month.php")
data = r.text
soup =BeautifulSoup(data, "lxml")
for link in soup.find_all('a'):
    print(link.get('href'))

问题是我得到了许多其他不需要的信息。我想问一下,什么方法只能给我股票名称而不是别的。

1 个答案:

答案 0 :(得分:0)

r = requests.get("http://www.barchart.com/stocks/performance/12month.php")
html = r.text
soup = BeautifulSoup(html, 'html.parser')
tds = soup.find_all("td", {"class": "ds_name"})
for td in tds:
    print td.a.text

如果你查看页面的源代码,你会发现你需要的只是一张表。具体而言,股票&#39;名称位于<td></td> class="ds_name"。那就是它。