def main:
with open(sourcefile, 'r', encoding='utf-8') as main_file:
for line in main_file:
htmlcontent = reader(line)
def reader(line):
with urllib.request.urlopen(line) as url_file:
try:
url_file.read().decode('UTF-8')
except urllib.error.URLError as url_err:
print('Error opening url: ', url, url_err)
except UnicodeDecodeError as decode_err:
print('Error decoding url: ', url, decode_err)
return url_file
大家好,我是python的新手,我有一个关于从网站上阅读HTML代码的问题。所以我正在使用如图所示的正则表达式,我试图简单地从网站返回HTML代码。变量line
从文本文件中获取URL,该文件具有URL行,因此它遍历它。到目前为止,这是我的代码,但是会出现多个错误。我知道我必须使用else
条款,而且我不知道如何将其合并。我打算使用返回的HTML值作为正则表达式的主题。我也希望使用urllib.request库来获取HTML。
答案 0 :(得分:2)
使用请求模块更好。一个班轮代码
import requests
html = requests.get("www.domain.tld").text
答案 1 :(得分:0)
这会将网站内容保存在list = [function(oldList, i) for i in range(len(oldList))]
def isNextElementEqual(list, index, totalTimeSpent = 0, count = 0):
if list[index][2] == list[index + 1][2] and list[index][0] == list[index+1][0] and index+1 < len(list):
totalTimeSpent += list[index][1]
count += 1
isNextElementEqual(list, index + 1, totalTimeSpent, count)
elif count > 0:
return [list[index][0], totalTimeSpent, list[index][2]]
并打印出来
html_content