Question

我是网络抓取的新手。我这样做

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html = urlopen("http://chgk.tvigra.ru/letopis/?2016/2016_spr#27mar")
soup = BeautifulSoup(html, "html.parser")
res = soup.find_all('a', {'href': re.compile("r'\b?20\b'")})
print (res)

并获取

[]

我的目标是这个片段

<script language="javascript" type="text/javascript">
cont = new Array();
count = new Array();
for (i=1979; i <=2015; i++){count[i]=0};
cont[1979] =    "<li><a href='?1979_1#24jan'>24 января</a>" +

..............

cont[2016] =    "<li><a href='?2016/2016_spr#cur'>Весенняя серия</a>" +
        "<li><a href='?2016/2016_sum#cur'>Летняя серия</a>" +
        "<li><a href='?2016/2016_aut#cur'>Осенняя серия</a>" +
        "<li><a href='?2016/2016_win#cur'>Зимняя серия</a>";

我尝试得到这样的结果

'?2016/2016_spr#cur' 
'?2016/2016_sum#cur'
'?2016/2016_aut#cur'
'?2016/2016_win#cur'

从2000年到现在（所以＆＃39; 20＆＃39; "r'\b?20\b'"就是这个原因）。你能帮帮我吗？

Answer 1

预赛：

>>> import requests
>>> import bs4
>>> page = requests.get('http://chgk.tvigra.ru/letopis/?2016/2016_spr#27mar').content
>>> soup = bs4.BeautifulSoup(page, 'lxml')

完成此操作后，似乎最直接的识别script元素的方法可能就是使用它：

>>> scripts = soup.findAll('script', text=bs4.re.compile('cont = new Array();'))

但是，scripts被证明是一个空列表。（我不知道为什么。）

基本方法有效，如果我在脚本中选择不同的目标，但看起来依赖于Javascript脚本元素内容的确切格式是不安全的。

>>> scripts = soup.find_all(string=bs4.re.compile('i=1979'))
>>> len(scripts)
1

不过，这对你来说可能还不错。请注意，脚本最后会有change函数被丢弃。

更安全的方法可能是查找包含table元素，然后查找其中的第二个td元素，最后查找其中的script。

>>> table = soup.find_all('table', class_='common_table')
>>> tds = table[0].findAll('td')[1]
>>> script = tds.find('script')

同样，您需要放弃功能change。

Answer 2

您可以使用get('attribute')，然后根据需要过滤结果：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://chgk.tvigra.ru/letopis/?2016/2016_spr#27mar")
soup = BeautifulSoup(html, "html.parser")
res = [link.get('href') for link in soup.find_all('a')]
print (res)

如何从HTML中提取URL

2 个答案: