标签: dataset plaintext
我正在开发一个ruby中的解析器,它解析一些非均匀的文本数据。任何人都可以告诉我,我可以在哪里获得大量明文数据吗?
答案 0 :(得分:5)
你可以抓Wikipedia(或者只是通过lynx -dump运行一堆)。这也会给你一个非英语文本的大量来源。 Project Gutenberg将是大量纯文本的另一个好来源。
lynx -dump
答案 1 :(得分:4)
这里有一个很多的列表:
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
我最喜欢的是:
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/