Question

问题：在Uni找到数学讲座的答案和练习。赫尔辛基

实际问题

使用.com在robots.txt

Disallow

在（1）处制作包含* .pdf
在（2）中制作一个包含pdf文件中“analyysi”一词的网站列表

对实际问题的建议

问题3：制作一个从pdf文件中删除数据的编译器

问题

如何搜索已注册的.com -sites？
您如何解决实际问题1＆amp; 2由Python的defaultdict和BeautifulSoap？

Answer 1

我试图找到互联网上的每个网站都有一个pdf文件，其中包含“Analyysi”一词

不是您问题的答案，但是：请尊重网站所有者不希望编入索引的愿望。

Answer 2

你的问题有问题。

关于（2），您正在做出错误的假设，即您可以在网络服务器上找到所有PDF文件。由于多种原因，这是不可能的。第一个原因是并非所有文件都可以被引用。第二个原因是，即使它们被引用，引用本身也可能对您不可见。最后，有动态生成的PDF资源。这意味着在你要求它们之前它们不存在。而且由于它们依赖于你的输入，因此它们的数量无限。

问题3出于同样的原因是错误的。特别是，只有在查询中使用时，生成的PDF才可能包含单词“analyysi”。例如。 http://example.com/makePDF.cgi?analyysi

Answer 3

如果我了解您的要求，您基本上必须抓住每个可能的网站，以便查看哪个网站符合您的条件。无论您使用什么工具，我都看不到任何更快或更有效的解决方案。

Answer 4

如果我理解正确的话，那么如果没有扫描整个互联网，我就不会看到这是怎么回事。您正在寻找互联网上不在谷歌上的网页？网上没有每个网站的数据库，是否有搜索引擎索引......

你真的需要索引整个网络，然后浏览每个网站并检查它们是否在谷歌上。

如果这在一个网站或网站上有关，我也很困惑，因为你的问题似乎在两者之间切换。

Answer 5

您的意思是说您在大学内部网的网页上讲课，并且希望能够从大学内部网外访问此页面吗？

我认为，为了访问您的Uni内联网，您必须输入密码，并且Google不会将任何Uni的内部网页编入索引 - 这是内联网的性质。

如果以上所有假设都是正确的，那么您只需要在大学内部网外的网站上托管您的pdf文件。最简单的方法是创建一个博客（不需要任何费用，而且非常简单快捷），然后在那里发布你的pdf文件。

然后，Google会将您的网页编入索引，并在您输入时从您的pdf中“删除数据”，这意味着您的pdf文件中的文本将是可搜索的。

Answer 6

我概述：

<强> 1。法

“问题在于执行该法律！原则上它很容易，实际上它很昂贵！” source

“没有法律规定必须遵守/robots.txt ，也不构成网站所有者和用户之间的具有约束力的合同，但有/ < em> robots.txt可能与法律案件相关。“source

<强> 2。实践

disallow filetype:txt

第3。理论上可能吗？

无法找到robots.txt阻止的互联网页面

6 个答案: