Question

我正试图从一个新闻网站获取一些数据。要做到这一点，我需要使用网站的内部搜索引擎。我认为获取javascript生成的内容存在一些问题吗？

import mechanize
br = mechanize.Browser()
search_for = 'stack'
url = 'http://www.delfi.lt/paieska/?q={}'.format(search_for)
htmlfile = br.open(url)
webtext = htmlfile.read()
print webtext

我发现这将返回包括搜索结果在内的所有文本。但是，它不会返回搜索结果。

我被投了票。没关系，但请提供反馈，我的问题出了什么问题。

Answer 1

他们正在使用通过javascript加载的自定义Google搜索。您有三种选择：

将页面加载到无头浏览器中，如phantomjs / casperjs。
在Python中复制他们的javascript。（糟糕的选择）
自己使用googles搜索API。

你真的不能使用机械化来完成这些任务。

如何使用机械python

1 个答案: