使用python从9gag下载图像和注释

时间:2018-07-07 17:17:08

标签: python html json web-scraping automation

我想使用9gag的图像和该图像的前10条评论。我正在尝试使用python拉图像。我不知道该如何进行。

BASE_URL = 'https://9gag.com/'

def get_image_soup(section):
    url = BASE_URL + section
    source_code = requests.get(url)
    plain_text = source_code.text
    soup = bs(plain_text)
    return soup

soup = get_image_soup(BASE_URL + 'funny')

看起来像文章的链接在“ GAG.App.LoadConfig”中。如何拉到文章的链接?

1 个答案:

答案 0 :(得分:1)

您需要解析html以获取图像和注释。注释与图像位于不同的页面,因此您需要为每个图像生成链接,然后在其中解析注释。要拉文章的链接,您需要获取每个图像的ID,并使用它来生成新的链接。如果图像的ID为avOXW7d,则您的网址必须为https://9gag.com/gag/avOXW7d

我建议您使用API​​而不是对此任务进行html解析,因为解析html非常耗时。在快速进行Google搜索时,我发现有一些针对9gag的非官方API。这里是一些您可以使用的链接。 Link 1Link 2