试图从网站

时间:2018-03-13 02:09:36

标签: python html

def main:
with open(sourcefile, 'r', encoding='utf-8') as main_file:
    for line in main_file:
        htmlcontent = reader(line)

def reader(line):

    with urllib.request.urlopen(line) as url_file:
      try:
          url_file.read().decode('UTF-8')
      except urllib.error.URLError as url_err:
          print('Error opening url: ', url, url_err)
      except UnicodeDecodeError as decode_err:
          print('Error decoding url: ', url, decode_err)
 return url_file

大家好,我是python的新手,我有一个关于从网站上阅读HTML代码的问题。所以我正在使用如图所示的正则表达式,我试图简单地从网站返回HTML代码。变量line从文本文件中获取URL,该文件具有URL行,因此它遍历它。到目前为止,这是我的代码,但是会出现多个错误。我知道我必须使用else条款,而且我不知道如何将其合并。我打算使用返回的HTML值作为正则表达式的主题。我也希望使用urllib.request库来获取HTML。

2 个答案:

答案 0 :(得分:2)

使用请求模块更好。一个班轮代码

import requests

html = requests.get("www.domain.tld").text

答案 1 :(得分:0)

这会将网站内容保存在list = [function(oldList, i) for i in range(len(oldList))] def isNextElementEqual(list, index, totalTimeSpent = 0, count = 0): if list[index][2] == list[index + 1][2] and list[index][0] == list[index+1][0] and index+1 < len(list): totalTimeSpent += list[index][1] count += 1 isNextElementEqual(list, index + 1, totalTimeSpent, count) elif count > 0: return [list[index][0], totalTimeSpent, list[index][2]] 并打印出来

html_content