我无法使我的网络搜寻器正常运行。 您能否帮助我使其变得足够聪明,以至于无需使用任何外部库就可以知道“多长时间打一次域”,“防止DOS保护启动”和“如何遵守robots.txt约定”。
这是我在python3中的代码
import urllib.request
from html.parser import HTMLParser
import time
with urllib.request.urlopen('https://sayamkanwar.com/') as response:
src = response.read()
url = 'https://sayamkanwar.com/'
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
attrs = dict(attrs)
if 'href' in attrs and attrs['href'].startswith('https'):
print(attrs['href'])
with urllib.request.urlopen(url) as response:
src = response.read().decode('utf-8')
parser = MyHTMLParser()
parser.feed(src)
print(src)
print("Timestamp: " + time.strftime('%a %H:%M:%S'))