Question

抓取看起来像这样的HTML：

＆＃13;

<div class="resultRow" data-unix="1528542937" id="resultRow1">
<div class="resultRow" data-unix="1528542937" id="resultRow2">
<div class="resultRow" data-unix="1528542937" id="resultRow1">

＆＃13;

如何提取data-unix字段的值？

我是否必须使用REGEXP或有更好的方法吗？

for tmp in soup.findAll('div', {'class':'resultRow'}):
      x = tmp.find(re.compile('/data-unix="(.*)"/'))

提前谢谢。

Answer 1

您可以使用为__getitem__对象字典样式声明的内置BeautifulSoup方法：

from bs4 import BeautifulSoup as soup
s = """
<div class="resultRow" data-unix="1528542937" id="resultRow1">
<div class="resultRow" data-unix="1528542937" id="resultRow2">
<div class="resultRow" data-unix="1528542937" id="resultRow1"> 
"""
final_results = [i['data-unix'] for i in soup(s, 'html.parser').find_all('div', {'class':'resultRow'})]

输出：

['1528542937', '1528542937', '1528542937']

Answer 2

根据你关于在循环中移动Ajax1234的答案的问题：

let

提取自定义＆＃34;数据＆＃34;标签使用BeautifulSoup（python）

2 个答案: