到目前为止,我已经使用urllib2和re创建了一个基本程序,它收集了一个网站的html代码,并为你打印出来并索引关键字。我想创建一个更复杂和动态的程序,它可以收集来自体育或股票统计等网站的数据,并将它们汇总成列表,然后可以用于excel文档等内容的分析。我' m不要求有人真正编写代码。我需要帮助更多地了解我应该如何处理代码:我是否需要额外的库等。这是当前的代码。到目前为止,它非常简单。:
import urllib2
import re
y = 0
while(y == 0):
x = str(raw_input("[[[Enter URL]]]"))
keyword = str(raw_input("[[[Enter Keyword]]]"))
wait = 0
try:
req = urllib2.Request(x)
response = urllib2.urlopen(req)
page_content = response.read()
idall = [m.start() for m in re.finditer(keyword,page_content)]
wait = raw_input("")
print(idall)
wait = raw_input("")
print(page_content)
except urllib2.HTTPError as e:
print e.reason
答案 0 :(得分:4)
您可以使用请求来处理与网站的互动。这是链接。 http://docs.python-requests.org/en/latest/
然后你可以使用beautifulsoup来处理html内容。这是链接。http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
它们比urllib2和re更易于使用。 希望它有所帮助。