解析URL以搜索Pattern

时间:2016-02-11 15:25:40

标签: python

我需要阅读网址内容和搜索/正则表达式。例如在corrupt_files.jsp中,我需要搜索任何关键字“auction_log.DATE”(其中DATE是昨天)

我怎样才能实现它?

以下是我到目前为止所得到的:

from urllib import urlopen
import re
import time
import datetime
from datetime import date, timedelta
yesterday = date.today() - timedelta(1)

DATE= yesterday.strftime('%Y-%m-%d')

html = urlopen("http://url.com/corrupt_files.jsp").read()

for line in html.split('<tr'):
  re.search('auction_log.DATE',line)

1 个答案:

答案 0 :(得分:0)

您可以使用BeautifulSoupScrapy来提取您的内容。例如BS:

from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('corrupt_files.jsp').read()
soup = BeautifulSoup(r)
soup.body.findAll(text='auction_log.DATE')