Question

我需要阅读网址内容和搜索/正则表达式。例如在corrupt_files.jsp中，我需要搜索任何关键字“auction_log.DATE”（其中DATE是昨天）

我怎样才能实现它？

以下是我到目前为止所得到的：

from urllib import urlopen
import re
import time
import datetime
from datetime import date, timedelta
yesterday = date.today() - timedelta(1)

DATE= yesterday.strftime('%Y-%m-%d')

html = urlopen("http://url.com/corrupt_files.jsp").read()

for line in html.split('<tr'):
  re.search('auction_log.DATE',line)

Answer 1

您可以使用BeautifulSoup或Scrapy来提取您的内容。例如BS：

from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('corrupt_files.jsp').read()
soup = BeautifulSoup(r)
soup.body.findAll(text='auction_log.DATE')

解析URL以搜索Pattern

1 个答案: