用于解析实验的大量明文数据

时间:2011-04-26 03:53:23

标签: dataset plaintext

我正在开发一个ruby中的解析器,它解析一些非均匀的文本数据。任何人都可以告诉我,我可以在哪里获得大量明文数据吗?

2 个答案:

答案 0 :(得分:5)

你可以抓Wikipedia(或者只是通过lynx -dump运行一堆)。这也会给你一个非英语文本的大量来源。 Project Gutenberg将是大量纯文本的另一个好来源。

答案 1 :(得分:4)