麻烦刮取JS子页面的内容

时间:2016-01-13 09:26:05

标签: javascript python web-scraping beautifulsoup

我在抓取此webpage的JavaScript内容时遇到问题。我一直在使用BeautifulSoup,这对JS抓取没有帮助,因为我只得到以下输出而不是JS子页面的文本内容。

...
<!--Comp:(1365)-->
<div class="com700_">
<script>
$(document).ready(function(){
tb_show("Captcha","/cr/haestirettur/captcha.jsp?KeepThis=true&TB_iframe=true&height=200&width=300&modal=true","/cr/haestirettur/img/loadinganimation.gif");
});
</script>
</div>
<!--/Comp:(1365)-->
....

我执行以下Python代码的地方

from bs4 import BeautifulSoup as bsoup
import requests as rq

url = 'http://haestirettur.is/domar?nr=10915'
r = rq.get(url)

soup = bsoup(r.content, "lxml")
print soup

有没有什么好方法可以使用Python收集子页面的内容? 谢谢!

0 个答案:

没有答案