从for循环中提取特定的迭代输出

时间:2013-06-22 14:50:12

标签: python for-loop web-scraping beautifulsoup

我一直在编写一个从www.meh.ro网站上删帖的功能。我希望它从随机页面中随机发送一个帖子,但是按照我构建它的方式,它通过使用for循环迭代html来擦除所有帖子,我只需要从单个帖子返回输出。我一直在寻找并解决一个简单的解决方案,但我认为我有作家阻止。我希望有人可能有一个我失踪的好主意。

我的代码:

from random import randint
from urllib import urlopen
# from urllib import urlretrieve
from bs4 import BeautifulSoup


hit = False
while hit == False:
    link = 'http://www.meh.ro/page/' + str(randint(1, 1000))
    print link, '\n---\n\n'

    try:
        source = urlopen(link).read()
        soup = BeautifulSoup(source)

        for tag in soup.find_all('div'):
            try:
                if tag['class'][1] == 'post':
                    # print tag.prettify('utf-8'), '\n\n'
                    title = tag.h2.a.string
                    imageURL = tag.p.a['href']
                    sourceURL = tag.div.a['href'].split('#')[0]

                    print title
                    print imageURL
                    print sourceURL
                    print '\n'
                    hit = True

            except Exception, e:
                if type(e) != 'exceptions.IndexError' or 'exceptions.KeyError':
                    print 'try2: ',type(e), '\n', e

    except Exception, e:
            print 'try1: ',type(e), '\n', e

我考虑过根据我在代码中其他地方使用的一个想法来设置选择特定条目的机会,即将元素添加n次到列表以增加或减少它们从中拉出的机会它:

def content_image():
    l = []
    l.extend(['imgur()' for i in range(90)])
    l.extend(['explosm()' for i in range(10)])

    return eval(l[randint(0, len(l)-1)])
    return out

它会起作用,但我不管是因为我确信有人比我更有经验可以找到更好的解决方案。

1 个答案:

答案 0 :(得分:1)

要随机选择一个帖子,你仍然需要遍历所有帖子并将它们收集在一个列表中:

import random

posts = []
for tag in soup.find_all('div', class_='post'):
    title = tag.h2.a.string
    imageURL = tag.p.a['href']
    sourceURL = tag.div.a['href'].split('#', 1)[0]

    posts.append((title, imageURL, sourceURL))

title, imageURL, sourceURL = random.choice(posts)

此代码将所有帖子(标题,图片网址,源网址)收集到一个列表中,然后使用random.choice()从该列表中选择一个随机条目。