我需要下载某个域中具有特定URL结尾的所有页面的列表。
例如,我有一个网页,例如http://brnensky.denik.cz/
,这是一个有新闻的捷克网页。每篇文章的网址都以发布日期结束,例如http://brnensky.denik.cz/zpravy_region/ruzova-kola-usnadni-presun-po-brne-20140418.html
。
所以我想查找以http://brnensky.denik.cz/
开头的所有网址列表,然后找到所有网址,然后是-20140418.html
。有可能实现吗?
我试图用Java解决这个问题,但也有其他方法可以解决这个问题。
答案 0 :(得分:0)
正则表达式
^http://brnensky\.denik\.cz.*[0-9]{8}\.html
逻辑
以URL开头,以date.html和date结尾将始终是8位数字符串。
你可能不得不逃避' /'根据工具或Lang用来实现这个表达式