如何使我的网络搜寻器正常运行?

时间:2019-07-16 17:59:07

标签: python-3.x parsing web-scraping timestamp

我无法使我的网络搜寻器正常运行。 您能否帮助我使其变得足够聪明,以至于无需使用任何外部库就可以知道“多长时间打一次域”,“防止DOS保护启动”和“如何遵守robots.txt约定”。

这是我在python3中的代码

import urllib.request
from html.parser import HTMLParser
import time

with urllib.request.urlopen('https://sayamkanwar.com/') as response:
    src = response.read()
url = 'https://sayamkanwar.com/'


class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            attrs = dict(attrs)
            if 'href' in attrs and attrs['href'].startswith('https'):
                print(attrs['href'])

with urllib.request.urlopen(url) as response:
    src = response.read().decode('utf-8')
parser = MyHTMLParser()
parser.feed(src)
print(src)
print("Timestamp: " + time.strftime('%a %H:%M:%S'))

0 个答案:

没有答案