Question

我访问以下网站以提取股票清单：

http://www.barchart.com/stocks/performance/12month.php

我使用以下代码：

from bs4 import BeautifulSoup
import requests

url=raw_input("http://www.barchart.com/stocks/performance/12month.php")
r = requests.get("http://www.barchart.com/stocks/performance/12month.php")
data = r.text
soup =BeautifulSoup(data, "lxml")
for link in soup.find_all('a'):
    print(link.get('href'))

问题是我得到了许多其他不需要的信息。我想问一下，什么方法只能给我股票名称而不是别的。

Answer 1

r = requests.get("http://www.barchart.com/stocks/performance/12month.php")
html = r.text
soup = BeautifulSoup(html, 'html.parser')
tds = soup.find_all("td", {"class": "ds_name"})
for td in tds:
    print td.a.text

如果你查看页面的源代码，你会发现你需要的只是一张表。具体而言，股票＆＃39;名称位于<td></td> class="ds_name"。那就是它。

使用BeautifulSoup（Python）从网站提取特定信息

1 个答案: