Question

这个问题类似于here提出的问题，但答案没有多大帮助。

我正在尝试从使用Disqus的网页中提取评论，但是我无法访问该部分。

这就是我到目前为止，它并不多

import urllib
import urllib2,cookielib
from bs4 import BeautifulSoup
from IPython.display import HTML

site= "http://www.timesofmalta.com/articles/view/20161207/local/daphne-caruana-galizia-among-politicos-28-most-influential.633146"
hdr = {'User-Agent':'Mozilla/5.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)

soup = BeautifulSoup(page,"html.parser")
title = soup.title.text
print title

有关我如何尝试解决此问题的任何提示？

Answer 1

尝试在java上下载无限滚动时遇到了同样的问题。做了一百万件事，包括漂亮的汤，我意识到解决这个问题的最好方法是用chrome调试，以获得在动态内容加载时出现的请愿书的URL，然后找到一种方法来规范表达式，以便我可以用不同的方式调用它。

因此，例如，如果激活无限滚动时，您打开了chrome调试控制台，您将看到HTTP请求（可能是HTTP-get）。如果URL的结构为：

http：www.yourlink.com/get_comments/product/page_offset_numbertoload/

您将能够使用python构建一个http请求并发送它，获取响应，其中存储您要查找的数据。祝你好运！

使用Python和Beautiful Soup提取Disqus评论

1 个答案: