如何在python中使用urllib2收集特定信息

时间:2014-09-25 05:09:58

标签: python urllib2

到目前为止,我已经使用urllib2和re创建了一个基本程序,它收集了一个网站的html代码,并为你打印出来并索引关键字。我想创建一个更复杂和动态的程序,它可以收集来自体育或股票统计等网站的数据,并将它们汇总成列表,然后可以用于excel文档等内容的分析。我' m不要求有人真正编写代码。我需要帮助更多地了解我应该如何处理代码:我是否需要额外的库等。这是当前的代码。到目前为止,它非常简单。:

    import urllib2
    import re 

    y = 0

    while(y == 0):
        x = str(raw_input("[[[Enter URL]]]"))
        keyword = str(raw_input("[[[Enter Keyword]]]"))
        wait = 0
        try:
            req = urllib2.Request(x)
            response = urllib2.urlopen(req)
            page_content = response.read()
            idall = [m.start() for m in re.finditer(keyword,page_content)]
            wait = raw_input("")
            print(idall)
            wait = raw_input("")
            print(page_content)

        except urllib2.HTTPError as e:
            print e.reason

1 个答案:

答案 0 :(得分:4)

您可以使用请求来处理与网站的互动。这是链接。 http://docs.python-requests.org/en/latest/

然后你可以使用beautifulsoup来处理html内容。这是链接。http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

它们比urllib2和re更易于使用。 希望它有所帮助。