所以我试图使用AutoPagerize和DownThemAll的组合下载我所有的旧reddit帖子。
以下是我想要区分的两个示例网址:
我试图使用的正则表达式是:(\ b)http://www.reddit.com/([^?\ s] *)?
我想要下载所有reddit帖子,但我不想要任何冗余,所以我想要匹配我的所有reddit帖子,除了带有问号的任何内容(之后有“context = 3”字符)。
我使用RegEx Buddy来表明正则表达式适合第一个URL但不适合第二个URL。但是,DownThemAll不承认这一点。 DownThemAll解析regexp的能力有限,还是我做错了什么?
目前,我刚刚决定全部下载它们,但是要使用*subdirs*.*text*.*html*
的重命名掩码,以便稍后我可以大量删除其文件名中包含“context”一词的任何内容。
答案 0 :(得分:1)
Reddit确实有一个API,你可能想要看看它,可能会更容易。
https://github.com/reddit/reddit/wiki/API
编辑:看起来http://www.reddit.com/user/USERNAME/.json
可能是您想要的