我需要阅读网址内容和搜索/正则表达式。例如在corrupt_files.jsp中,我需要搜索任何关键字“auction_log.DATE”(其中DATE是昨天)
我怎样才能实现它?
以下是我到目前为止所得到的:
from urllib import urlopen
import re
import time
import datetime
from datetime import date, timedelta
yesterday = date.today() - timedelta(1)
DATE= yesterday.strftime('%Y-%m-%d')
html = urlopen("http://url.com/corrupt_files.jsp").read()
for line in html.split('<tr'):
re.search('auction_log.DATE',line)
答案 0 :(得分:0)
您可以使用BeautifulSoup或Scrapy来提取您的内容。例如BS:
from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('corrupt_files.jsp').read()
soup = BeautifulSoup(r)
soup.body.findAll(text='auction_log.DATE')