从具有URL约束的某个域下载页面列表

时间:2014-04-20 11:56:47

标签: java regex webpage wget

我需要下载某个域中具有特定URL结尾的所有页面的列表。

例如,我有一个网页,例如http://brnensky.denik.cz/,这是一个有新闻的捷克网页。每篇文章的网址都以发布日期结束,例如http://brnensky.denik.cz/zpravy_region/ruzova-kola-usnadni-presun-po-brne-20140418.html

所以我想查找以http://brnensky.denik.cz/开头的所有网址列表,然后找到所有网址,然后是-20140418.html。有可能实现吗?

我试图用Java解决这个问题,但也有其他方法可以解决这个问题。

1 个答案:

答案 0 :(得分:0)

正则表达式

^http://brnensky\.denik\.cz.*[0-9]{8}\.html

逻辑

以URL开头,以date.html和date结尾将始终是8位数字符串。

你可能不得不逃避' /'根据工具或Lang用来实现这个表达式