Python搜索结果中的Scraping链接

时间:2015-10-28 10:28:26

标签: php python search web-scraping beautifulsoup

我正在尝试使用Python从新闻网站的关键字搜索中生成/检索新闻链接列表。对于谷歌搜索,我知道一些用途 requests,但Google搜索页面有自己的链接地址(即https://www.google.dz/search?q=keyword),但某些网站不会通过网址传输关键字。

首先 - 例如,在http://english.hani.co.kr/中,用户会被带到搜索结果页面http://search.hani.co.kr/Search,其中包含链接列表,无论他们键入哪个关键字(Korea Times是另一个示例)。这样,是否仍然可以使用Python库来提取这些链接?

第二 - 在前两个和许多其他情况下(如this),搜索结果显示在多达数百页中。我应该使用哪些工具和技术来制作全面的新闻链接列表?

1 个答案:

答案 0 :(得分:2)

  

用于抓取网站有两个基本任务:

     
      
  • 将网页加载到字符串中。
  •   
  • 从网页中解析HTML以找到有趣的位。
  •   

您可以查看更多详细信息here

因此,一些搜索引擎使用 GET 进行搜索,其他搜索引擎使用 POST 方法。对于那些使用方法POST的人来说,独特的方式是进行搜索(而不是通过url)并获取用于分析的html结果。

两种方式(GET和POST)都可以使用 beautifulsoup