无法找到robots.txt阻止的互联网页面

时间:2009-06-17 21:44:51

标签: python web-crawler data-mining

问题:在Uni找到数学讲座的答案和练习。赫尔辛基

实际问题

  1. 使用.com在robots.txt
  2. 中制作Disallow的网站列表
  3. 在(1)处制作包含* .pdf
  4. 文件的网站列表
  5. 在(2)中制作一个包含pdf文件中“analyysi”一词的网站列表
  6. 对实际问题的建议

    1. 问题3:制作一个从pdf文件中删除数据的编译器
    2. 问题

      1. 如何搜索已注册的.com -sites?
      2. 您如何解决实际问题1& 2由Python的defaultdict和BeautifulSoap?

6 个答案:

答案 0 :(得分:6)

  

我试图找到互联网上的每个网站都有一个pdf文件,其中包含“Analyysi”一词

不是您问题的答案,但是:请尊重网站所有者不希望编入索引的愿望。

答案 1 :(得分:4)

你的问题有问题。

关于(2),您正在做出错误的假设,即您可以在网络服务器上找到所有PDF文件。由于多种原因,这是不可能的。第一个原因是并非所有文件都可以被引用。第二个原因是,即使它们被引用,引用本身也可能对您不可见。最后,有动态生成的PDF资源。这意味着在你要求它们之前它们不存在。而且由于它们依赖于你的输入,因此它们的数量无限。

问题3出于同样的原因是错误的。特别是,只有在查询中使用时,生成的PDF才可能包含单词“analyysi”。例如。 http://example.com/makePDF.cgi?analyysi

答案 2 :(得分:3)

如果我了解您的要求,您基本上必须抓住每个可能的网站,以便查看哪个网站符合您的条件。无论您使用什么工具,我都看不到任何更快或更有效的解决方案。

答案 3 :(得分:1)

如果我理解正确的话,那么如果没有扫描整个互联网,我就不会看到这是怎么回事。您正在寻找互联网上不在谷歌上的网页?网上没有每个网站的数据库,是否有搜索引擎索引......

你真的需要索引整个网络,然后浏览每个网站并检查它们是否在谷歌上。

如果这在一个网站或网站上有关,我也很困惑,因为你的问题似乎在两者之间切换。

答案 4 :(得分:0)

您的意思是说您在大学内部网的网页上讲课,并且希望能够从大学内部网外访问此页面吗?

我认为,为了访问您的Uni内联网,您必须输入密码,并且Google不会将任何Uni的内部网页编入索引 - 这是内联网的性质。

如果以上所有假设都是正确的,那么您只需要在大学内部网外的网站上托管您的pdf文件。最简单的方法是创建一个博客(不需要任何费用,而且非常简单快捷),然后在那里发布你的pdf文件。

然后,Google会将您的网页编入索引,并在您输入时从您的pdf中“删除数据”,这意味着您的pdf文件中的文本将是可搜索的。

答案 5 :(得分:0)

我概述:

<强> 1。法

“问题在于执行该法律!原则上它很容易,实际上它很昂贵!” source

没有法律规定必须遵守/robots.txt ,也不构成网站所有者和用户之间的具有约束力的合同,有/ < em> robots.txt可能与法律案件相关。“source

<强> 2。实践

disallow filetype:txt

第3。理论上可能吗?