我正在尝试使用Python从新闻网站的关键字搜索中生成/检索新闻链接列表。对于谷歌搜索,我知道一些用途 requests,但Google搜索页面有自己的链接地址(即https://www.google.dz/search?q=keyword),但某些网站不会通过网址传输关键字。
首先 - 例如,在http://english.hani.co.kr/中,用户会被带到搜索结果页面http://search.hani.co.kr/Search,其中包含链接列表,无论他们键入哪个关键字(Korea Times是另一个示例)。这样,是否仍然可以使用Python库来提取这些链接?
第二 - 在前两个和许多其他情况下(如this),搜索结果显示在多达数百页中。我应该使用哪些工具和技术来制作全面的新闻链接列表?
答案 0 :(得分:2)
用于抓取网站有两个基本任务:
- 将网页加载到字符串中。
- 从网页中解析HTML以找到有趣的位。
您可以查看更多详细信息here。
因此,一些搜索引擎使用 GET 进行搜索,其他搜索引擎使用 POST 方法。对于那些使用方法POST的人来说,独特的方式是进行搜索(而不是通过url)并获取用于分析的html结果。
两种方式(GET和POST)都可以使用 beautifulsoup 。