如何使用GoogleScraper软件包来抓取Python中不同搜索引擎的链接

时间:2015-06-09 06:28:01

标签: python web-scraping scrape

我想在python中搜索来自不同搜索引擎的链接以查找我的搜索查询。

例如

查询: - "谁是Sachin Tendulkar"

输出:想要谷歌搜索,搜索链接。

在挖掘了许多链接后,我发现谷歌Scrapper packege。

Google Scrapper Link

  

https://pypi.python.org/pypi/GoogleScraper/0.1.37

但我没有找到这个包的运气。任何人都可以帮我使用GoogleScrapper或其他任何替代链接

1 个答案:

答案 0 :(得分:1)

嘿你可以通过提到GoogleScrapper的同一个包来实现它。通过链接https://github.com/NikolaiT/GoogleScraper

以下是python代码

from GoogleScraper import scrape_with_config, GoogleSearchError
def saveLink(self, query):
        # See in the config.cfg file for possible values
        try:
            if query:
                file_name = query.replace(" " , "_")
                self.config = {
                    'SCRAPING': {
                        'use_own_ip': 'True',
                        'keyword': query,
                        'search_engines': 'bing',
                        'num_pages_for_keyword': 1,
                        'scrape_method': 'http'
                    },
                    'SELENIUM': {
                        'sel_browser': 'chrome',
                    },
                    'OUTPUT': {
                        'output_filename': "path/" + file_name + ".json"
                    },
                    'GLOBAL': {
                        'do_caching': 'False'
                    }
                }

                raw_html = ""
                sqlalchemy_session = scrape_with_config(self.config)
        except Exception:
            import traceback
            print(traceback.format_exc())

如果您想要重新连接多个搜索引擎,可以添加

' search_engines':' bing,yahoo,google',

您将在文件 output_filename

中获取json