从网页上的单词列表生成纯文本文件

时间:2011-06-01 20:48:02

标签: java web-crawler

我正在尝试生成一个纯文本文件,其中包含网页上的单词列表。问题是该列表分为多个页面。

http://www.whonamedit.com/eponyms/A/?start=50&maxrows=25

这就是我的意思。就像字母A一样,我需要所有13页的单词,而且我还需要字母表中的每一个字母。

我在考虑修改一个webcrawler来执行此任务,这是最简单的方法吗?

我更喜欢Java,但Python还可以。

很抱歉,如果答案很明显,但是正确方向的任何推动都会非常感激!!

2 个答案:

答案 0 :(得分:0)

我使用HtmlUnit来编写蜘蛛

答案 1 :(得分:0)

假设这是专门针对whonamedit网站的,您可以执行以下操作:

List<String>getWordsOnPage(String url) {
  // read words within <ul class="result-list"> element.
}

void getAllWords() {
  List<String> all = new ArrayList<String>();
  for (char letter = 'A'; letter <= 'Z'; ++letter) {
    for (int start = 0; true; start += 25) {
      List<String> page = getWordsOnPage("http://www.whonamedit.com/eponyms/" + letter + "/?start=" + start + "&maxrows=25");
      if (page.isEmpty()) {
        break;
      }
      all.addAll(page);
    }
  }
}