我想知道是否有一种方法可以检索仅包含一定数量或以上特定页面的文件的搜索结果。
我当前正在使用Chrome浏览器,并尝试提取pdf文件 使用文件类型过滤器:
filetype:pdf
我只希望看到30页或更多的文件。
到目前为止,我尝试过先下载文件,然后使用Python检查页数。是否有一个高级的Google搜索过滤器选项可以做到这一点(可能是通过控制文件大小来间接实现这一点),还是另一个允许该选项的浏览器?
答案 0 :(得分:1)
我想知道是否有一种检索搜索结果的方法 仅包含特定页面数或以上的文件。
否,恐怕没有办法。
搜索引擎不向操作员提供搜索页数为X
的文档的功能。由于一个2
页面pdf
可以有一个30 Mb
,而另一个带有{{ 1}}个页面仅20
。大小取决于嵌入式媒体,压缩率等因素。
答案 1 :(得分:0)
为此,您需要使用Googles Advances Search Feature. 这使您能够以更大的粒度构建搜索,还可以查看用于编译该搜索的正确语法。 为了更精确地回答您的问题,以便按页数搜索PDF,当您执行Google搜索时,请按以下格式设置搜索格式:
/Library/Developer/CommandLineTools/Packages
其中最小页面数为O,最大页面数为30。
如果您希望最小值为30,而没有最大值,则可以将最大值留空,如下所示:
"Your search Criteria" filetype:pdf 0..30
获得这些搜索结果后,您可以使用BeautifulSoup,scrapy等获取链接列表并对其进行迭代以下载所有PDF