如何使用机械python

时间:2014-08-18 11:16:49

标签: python web-scraping mechanize

我正试图从一个新闻网站获取一些数据。要做到这一点,我需要使用网站的内部搜索引擎。我认为获取javascript生成的内容存在一些问题吗?

import mechanize
br = mechanize.Browser()
search_for = 'stack'
url = 'http://www.delfi.lt/paieska/?q={}'.format(search_for)
htmlfile = br.open(url)
webtext = htmlfile.read()
print webtext

我发现这将返回包括搜索结果在内的所有文本。但是,它不会返回搜索结果。

我被投了票。没关系,但请提供反馈,我的问题出了什么问题。

1 个答案:

答案 0 :(得分:1)

他们正在使用通过javascript加载的自定义Google搜索。您有三种选择:

  • 将页面加载到无头浏览器中,如phantomjs / casperjs。
  • 在Python中复制他们的javascript。 (糟糕的选择)
  • 自己使用googles搜索API。

你真的不能使用机械化来完成这些任务。