Question

到目前为止，我已经使用urllib2和re创建了一个基本程序，它收集了一个网站的html代码，并为你打印出来并索引关键字。我想创建一个更复杂和动态的程序，它可以收集来自体育或股票统计等网站的数据，并将它们汇总成列表，然后可以用于excel文档等内容的分析。我＆＃39; m不要求有人真正编写代码。我需要帮助更多地了解我应该如何处理代码：我是否需要额外的库等。这是当前的代码。到目前为止，它非常简单。：

    import urllib2
    import re 

    y = 0

    while(y == 0):
        x = str(raw_input("[[[Enter URL]]]"))
        keyword = str(raw_input("[[[Enter Keyword]]]"))
        wait = 0
        try:
            req = urllib2.Request(x)
            response = urllib2.urlopen(req)
            page_content = response.read()
            idall = [m.start() for m in re.finditer(keyword,page_content)]
            wait = raw_input("")
            print(idall)
            wait = raw_input("")
            print(page_content)

        except urllib2.HTTPError as e:
            print e.reason

Answer 1

您可以使用请求来处理与网站的互动。这是链接。 http://docs.python-requests.org/en/latest/

然后你可以使用beautifulsoup来处理html内容。这是链接。http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

它们比urllib2和re更易于使用。希望它有所帮助。

如何在python中使用urllib2收集特定信息

1 个答案: