有没有办法加速PRAW的评论解析?

时间:2017-06-06 17:39:24

标签: python reddit praw

我正在编写一个脚本来抓取文本数据(帖子及其评论),并且评论为下载添加了太多时间,这是荒谬的。

如果我只下载帖子而没有评论,它每秒大约100张,但是如果我用帖子下载评论,它会降到每秒1-2张,这只是针对顶级评论。如果我包含嵌套注释,1个帖子需要大约5-10分钟(我测试的帖子是/ r / raskreddit的最高帖子,但仍然如此)。以下是我使用的方法,请告诉我是否有办法让这更快!

for top_level_comment in submission.comments.list():
    commentnumber += 1
    comment1= long variable, not important
    savepost.write(comment1)
    for comment in top_level_comment.replies:
        parentvar = comment.parent_id
        parent = reddit.comment(parentvar[3:])
        parentauthor = str(parent.author)
        comment2 = again, long variable
        savepost.write(comment2)

我也尝试过这种方法,认为带有评论请求的语句可能会有所帮助,但它并没有

for comment in submission.comments.list():
    if str(comment.parent_id[:2]) == "t1":
    parent = reddit.comment(comment.parent_id[3:])
    comment2 = super long variable, not important
    if comment.parent_id not in commentidlist:
        commentidlist.append(comment.parent_id)
        comment1 = Again, long variable
        savepost.write(comment1)
        print("Wrote parent comment Id: "+comment.parent_id[3:])
    savepost.write(comment2)

0 个答案:

没有答案