有谁知道在哪里可以找到各种主题的大量样本文件库? 我正在寻找至少几千个文件(办公室或PDF应该没问题)以便测试一些算法......文件应该有一些共同点 - 例如,一千个与编程有关的文档,另外一千个与编程相关的文档生态学等......
任何人都知道我能在哪里得到它?
答案 0 :(得分:6)
您是否尝试过使用维基百科?创建一个脚本:
跟随生成的重定向,将?printable = yes附加到url的末尾(以便删除布局crud) - 使用wget执行这两个步骤,或者等效,它将执行重定向你。
通过html-> pdf转换器管理生成的html内容。
重复1000次。
这应该可以为您提供各种各样的内容。
答案 1 :(得分:2)
您可以使用Yahoo Search API上的高级搜索来指定您要查找的文档类型。
http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web
如果您需要大量的Word文档,请指定所需的文档类型,然后根据某些预先选择的关键字进行搜索。这应该会给你一堆文件。
您还可以通过指定fileType(来自随机列表)抓取高级Google搜索并以此方式获取文档链接,例如:
http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf
答案 2 :(得分:0)
编辑:我?没有帮助? :)
import mechanize, urllib, os
template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
br.open(template % i)
links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
urllib.urlretrieve(url, os.path.basename(url))