以下是我正在处理的代码。我正在尝试抓取位于nasdaq.com的历史数据表。我引用了一个在Excel工作表中编译的股票列表(如果需要可以提供,但不是问题)。我很难识别表格以及能够拨打正确的标签。我尝试按照在线教程无济于事。
当我运行代码时,在python shell中我每隔几秒就会显示空括号。
<code>
import webbrowser, selenium, os, pyautogui, select, time, openpyxl,
bs4, requests, subprocess
from selenium import webdriver
from selenium.webdriver.support.ui import Select
wb = openpyxl.load_workbook('StockList.xlsx')
sheet = wb.get_sheet_by_name('Merged')
for row in range (2,211):
def clean_history(sel, domains):
temp = sel.get_location()
for domain in domains:
sel.open(domain)
sel.delete_all_visible_cookies()
sel.open(temp)
url = sheet['B' + str(row)].value
root_url = 'http://www.nasdaq.com'
index_url = root_url + '/symbol/' + url + '/historical'
def get_data():
response = requests.get(index_url)
soup = bs4.BeautifulSoup(response.text)
return [div.attrs.get('td') for tr in
soup.select('div.quotes_content_left_pn1AJAX')]
print(get_data())
</code>
编辑:
我只是教自己蟒蛇,因此可怜的重复。我听了一本书,我拿到了一些这本书。我跟着这个链接的网页的实际互动。
http://blog.miguelgrinberg.com/post/easy-web-scraping-with-python
我相信我在返回行的代码行中标注错误。我希望能够获取这些数据并将其存储为文本文件或csv,或任何易于阅读的内容以供进一步操作。