我正在编写一个脚本来抓取文本数据(帖子及其评论),并且评论为下载添加了太多时间,这是荒谬的。
如果我只下载帖子而没有评论,它每秒大约100张,但是如果我用帖子下载评论,它会降到每秒1-2张,这只是针对顶级评论。如果我包含嵌套注释,1个帖子需要大约5-10分钟(我测试的帖子是/ r / raskreddit的最高帖子,但仍然如此)。以下是我使用的方法,请告诉我是否有办法让这更快!
for top_level_comment in submission.comments.list():
commentnumber += 1
comment1= long variable, not important
savepost.write(comment1)
for comment in top_level_comment.replies:
parentvar = comment.parent_id
parent = reddit.comment(parentvar[3:])
parentauthor = str(parent.author)
comment2 = again, long variable
savepost.write(comment2)
我也尝试过这种方法,认为带有评论请求的语句可能会有所帮助,但它并没有
for comment in submission.comments.list():
if str(comment.parent_id[:2]) == "t1":
parent = reddit.comment(comment.parent_id[3:])
comment2 = super long variable, not important
if comment.parent_id not in commentidlist:
commentidlist.append(comment.parent_id)
comment1 = Again, long variable
savepost.write(comment1)
print("Wrote parent comment Id: "+comment.parent_id[3:])
savepost.write(comment2)