Question

我有一个数据列表，我从使用正则表达式拆分html。

data_list = re.findall(r'<tr.*?>(.*?)<\/tr>', html)

当我在data_list中循环时，我想将变量open定义为例如

open = re.findall(r'kurs".*?>(.*?)<\/td', x)[0].strip('</span>')

它给了我一个错误：

追踪（最近一次呼叫最后一次）：

文件＆＃34;＆＃34;，第2行，in       open = re.findall（r＆＃39; kurs＆＃34;。？＆gt;（。？）＆lt; / td＆＃39;，x）[0] .strip（＆＃39;＆＃39）

IndexError：列表索引超出范围

提前谢谢

Answer 1

此错误表示列表中不存在具有此类索引的元素。因此re.findall列表中没有第一个元素返回，这意味着它什么都没找到。

顺便说一下，不建议使用正则表达式来解析HTML，更好地使用像BeautifulSoup和lxml这样的面向HTML的框架。