这个问题类似于here提出的问题,但答案没有多大帮助。
我正在尝试从使用Disqus的网页中提取评论,但是我无法访问该部分。
这就是我到目前为止,它并不多
import urllib
import urllib2,cookielib
from bs4 import BeautifulSoup
from IPython.display import HTML
site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146"
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page,"html.parser")
title = soup.title.text
print title
有关我如何尝试解决此问题的任何提示?
答案 0 :(得分:1)
尝试在java上下载无限滚动时遇到了同样的问题。做了一百万件事,包括漂亮的汤,我意识到解决这个问题的最好方法是用chrome调试,以获得在动态内容加载时出现的请愿书的URL,然后找到一种方法来规范表达式,以便我可以用不同的方式调用它。
因此,例如,如果激活无限滚动时,您打开了chrome调试控制台,您将看到HTTP请求(可能是HTTP-get)。如果URL的结构为:
http:www.yourlink.com/get_comments/product/page_offset_numbertoload/
您将能够使用python构建一个http请求并发送它,获取响应,其中存储您要查找的数据。祝你好运!