我目前正致力于抓取用户'过去对Reddit和Praw / Python的评论,我想在查询时超出上限(1k)。
我已经阅读了有关Cloudsearch语法的内容,您可以在其中多次进行时间戳和查询,但我无法完全消化那里发生的事情。有人能说清楚吗?谢谢!
我目前的目标:
dh = reddit.redditor(USERNAME)
count = 0
for c in dh.comments.new(limit = None):
print c.subreddit
这总是给我数= 1000 ......
答案 0 :(得分:-1)
Reddit的列表页面,与您浏览subreddit或用户页面时可以看到的页面相同,均为1000个项目。当新项目被添加或更新(例如,投票),适用于给定列表时,会将其插入该列表中的正确位置,删除超过1000项限制的任何项目。
Reddit的搜索不同。虽然每个单独的搜索本身具有类似的1000项限制,但时间戳可用于缩小搜索结果范围。通过最先排序结果,并跟踪最早结果的时间戳,可以成功循环连续搜索。
PRAW的submissions
正是这样做的:
http://praw.readthedocs.io/en/latest/code_overview/models/subreddit.html#praw.models.Subreddit.submissions
注意:搜索仅适用于提交