Question

我需要下载某个域中具有特定URL结尾的所有页面的列表。

例如，我有一个网页，例如http://brnensky.denik.cz/，这是一个有新闻的捷克网页。每篇文章的网址都以发布日期结束，例如http://brnensky.denik.cz/zpravy_region/ruzova-kola-usnadni-presun-po-brne-20140418.html。

所以我想查找以http://brnensky.denik.cz/开头的所有网址列表，然后找到所有网址，然后是-20140418.html。有可能实现吗？

我试图用Java解决这个问题，但也有其他方法可以解决这个问题。

Answer 1

正则表达式

^http://brnensky\.denik\.cz.*[0-9]{8}\.html

逻辑

以URL开头，以date.html和date结尾将始终是8位数字符串。

你可能不得不逃避＆＃39; /＆＃39;根据工具或Lang用来实现这个表达式

从具有URL约束的某个域下载页面列表

1 个答案: