为什么DownThemAll不能识别我的reddit URL正则表达式?

时间:2011-09-26 02:57:30

标签: regex

所以我试图使用AutoPagerize和DownThemAll的组合下载我所有的旧reddit帖子。

以下是我想要区分的两个示例网址:

我试图使用的正则表达式是:(\ b)http://www.reddit.com/([^?\ s] *)?

我想要下载所有reddit帖子,但我不想要任何冗余,所以我想要匹配我的所有reddit帖子,除了带有问号的任何内容(之后有“context = 3”字符)。

我使用RegEx Buddy来表明正则表达式适合第一个URL但不适合第二个URL。但是,DownThemAll不承认这一点。 DownThemAll解析regexp的能力有限,还是我做错了什么?


目前,我刚刚决定全部下载它们,但是要使用*subdirs*.*text*.*html*的重命名掩码,以便稍后我可以大量删除其文件名中包含“context”一词的任何内容。

1 个答案:

答案 0 :(得分:1)

Reddit确实有一个API,你可能想要看看它,可能会更容易。

https://github.com/reddit/reddit/wiki/API

编辑:看起来http://www.reddit.com/user/USERNAME/.json可能是您想要的