Question

我正在尝试生成一个纯文本文件，其中包含网页上的单词列表。问题是该列表分为多个页面。

http://www.whonamedit.com/eponyms/A/?start=50&maxrows=25

这就是我的意思。就像字母A一样，我需要所有13页的单词，而且我还需要字母表中的每一个字母。

我在考虑修改一个webcrawler来执行此任务，这是最简单的方法吗？

我更喜欢Java，但Python还可以。

很抱歉，如果答案很明显，但是正确方向的任何推动都会非常感激!!

Answer 1

我使用HtmlUnit来编写蜘蛛

Answer 2

假设这是专门针对whonamedit网站的，您可以执行以下操作：

List<String>getWordsOnPage(String url) {
  // read words within <ul class="result-list"> element.
}

void getAllWords() {
  List<String> all = new ArrayList<String>();
  for (char letter = 'A'; letter <= 'Z'; ++letter) {
    for (int start = 0; true; start += 25) {
      List<String> page = getWordsOnPage("http://www.whonamedit.com/eponyms/" + letter + "/?start=" + start + "&maxrows=25");
      if (page.isEmpty()) {
        break;
      }
      all.addAll(page);
    }
  }
}

从网页上的单词列表生成纯文本文件

2 个答案: