我正在尝试生成一个纯文本文件,其中包含网页上的单词列表。问题是该列表分为多个页面。
http://www.whonamedit.com/eponyms/A/?start=50&maxrows=25
这就是我的意思。就像字母A一样,我需要所有13页的单词,而且我还需要字母表中的每一个字母。
我在考虑修改一个webcrawler来执行此任务,这是最简单的方法吗?
我更喜欢Java,但Python还可以。
很抱歉,如果答案很明显,但是正确方向的任何推动都会非常感激!!
答案 0 :(得分:0)
我使用HtmlUnit来编写蜘蛛
答案 1 :(得分:0)
假设这是专门针对whonamedit网站的,您可以执行以下操作:
List<String>getWordsOnPage(String url) {
// read words within <ul class="result-list"> element.
}
void getAllWords() {
List<String> all = new ArrayList<String>();
for (char letter = 'A'; letter <= 'Z'; ++letter) {
for (int start = 0; true; start += 25) {
List<String> page = getWordsOnPage("http://www.whonamedit.com/eponyms/" + letter + "/?start=" + start + "&maxrows=25");
if (page.isEmpty()) {
break;
}
all.addAll(page);
}
}
}