Question

我对python比较陌生，我正在通过一个从多个金融网站收集数据的屏幕抓取应用程序。我现在有四个程序。两个在几分钟内运行，另外两个......每个运行几个小时。这两个查找我在csv文件中的特定股票代码的信息。我正在使用4,000多个符号。我知道，大部分时间花费在IO线上。至关重要的是，我将这些降低到每个半小时（或者，更好。这太雄心勃勃了吗？）因为这对我来说有任何实际用途。我正在使用python 3和BeautifulSoup。

我有以下我所做的一般结构。我在概念上缩写为非必要部分。我一次在多个调用/线程上读取多个线程以加快速度，似乎有很多选项。根据我到目前为止的结构，有人能指出我应该追求的正确方向吗？这将是一个巨大的帮助。我确定它很明显，但是这个过程与主驱动程序模块中的其他数据下载过程一起被调用。提前谢谢......

from bs4 import BeautifulSoup
import misc modules

class StockOption:
    def __init__(self, DateDownloaded, OptionData):
        self.DateDownloaded = DateDownloaded
        self.OptionData = OptionData

    def ForCsv(self):
        return [self.DateDownloaded, self.Optiondata]

def extract_options(TableRowsFromBeautifulSoup):
    optionsList = []
    for opt in range(0, len(TableRowsFromBeautifulSoup))
        optionsList.append(StockOption(data parsed from TableRows arg))
    return optionsList

def run_proc():
    symbolList = read in csv file of tickers
    for symb in symbolList:
        webStr = #write the connection string
        try:
            with urllib.request.urlopen(webStr) as url: page = url.read()
            soup = BeautifulSoup(page)
            if soup.text.find('There are no All Markets results for') == -1:
                tbls = soup.findAll('table')
                if len(tbls[9]) > 1:
                    expStrings = soup.findAll('td', text=True, attrs={'align': 'right'})[0].contents[0].split()
                    expDate = datetime.date(int(expStrings[6]), int(currMonth), int(expStrings[5].replace(',', '')))
                    calls = extract_options(tbls[9], symb, 'Call', expDate)
                    puts = extract_options(tbls[13], symb, 'Put', expDate)
                    optionsRows = optionsRows + calls
                    optionsRows = optionsRows + puts

        except urllib.error.HTTPError as err:
            if err.code == 404:
                pass
            else:
                raise
    opts = [0] * (len(optionsRows))
    for option in range(0, len(optionsRows)):
    opts[option] = optionsRows[option].ForCsv()
    #Write to the csv file.
    with open('C:/OptionsChains.csv', 'a', newline='') as fp:
        a = csv.writer(fp, delimiter=',')
        a.writerows(opts)

if __name__ == '__main__':
    run_proc()

Answer 1

您提供的缩写代码中存在一些错误，因此有点难以理解代码。如果您可以显示更多代码并进行检查，则可以更轻松地了解您的问题。

从代码和问题描述中，我有一些建议与您分享：

在run_proc()函数中，它会读取每个符号的网页。如果网址相同或者某些网址重复，那么如何只读取一次网页并将其写入内存或硬件，然后分析每个符号的页面内容？它将保存
BeautifulSoup很容易编写代码，但性能稍慢。如果lxml可以完成您的工作，则可以节省大量时间来分析网页内容。

希望它会有所帮助。

Answer 2

我从以下帖子指出了正确的方向（感谢作者顺便说一下）：

How to scrape more efficiently with Urllib2?

需要多线程屏幕抓取帮助

2 个答案: