应用错误收集

时间：2015-10-28 10:28:26

标签： php python search web-scraping beautifulsoup

我正在尝试使用Python从新闻网站的关键字搜索中生成/检索新闻链接列表。对于谷歌搜索，我知道一些用途 requests，但Google搜索页面有自己的链接地址（即https://www.google.dz/search?q=keyword），但某些网站不会通过网址传输关键字。

首先 - 例如，在http://english.hani.co.kr/中，用户会被带到搜索结果页面http://search.hani.co.kr/Search，其中包含链接列表，无论他们键入哪个关键字（Korea Times是另一个示例）。这样，是否仍然可以使用Python库来提取这些链接？

第二 - 在前两个和许多其他情况下（如this），搜索结果显示在多达数百页中。我应该使用哪些工具和技术来制作全面的新闻链接列表？

答案 0 :(得分：2)

用于抓取网站有两个基本任务：


将网页加载到字符串中。

从网页中解析HTML以找到有趣的位。

您可以查看更多详细信息here。

因此，一些搜索引擎使用 GET 进行搜索，其他搜索引擎使用 POST 方法。对于那些使用方法POST的人来说，独特的方式是进行搜索（而不是通过url）并获取用于分析的html结果。

两种方式（GET和POST）都可以使用 beautifulsoup 。