这些网站如何收集所有数据 - questionhub,bigresource,thedevsea,developerbay?
将这些数据作为bigresource显示在框架中是否合法?
答案 0 :(得分:0)
@amazed
已编辑:修正了一些拼写问题20110310
这些网站如何收集所有数据 - questionhub,bigresource ...
这是一个非常一般的草图,说明在网站背景中可能发生的事情,如questionhub.com
蜘蛛程序(google“蜘蛛程序”了解更多信息)
一个。配置为开始在stackoverflow.com上阅读网页(例如)
湾运行程序,然后进入stackoverflow.com的主页,并开始访问它在这些页面上找到的所有链接。
℃。从所有这些页面返回HTML数据
搜索索引程序
读取spider返回的HTML数据并创建搜索索引 存储它找到的单词以及在
用户界面网页
提供功能丰富的用户界面,以便您搜索已经抓取的网站。
这是合法的,可以像bigresource那样在框架中显示数据吗?
技术性,“一切都取决于”; - )
通常,网站希望在谷歌中可见,所以为什么不在其他搜索引擎中显示。
就像谷歌显示网站被蜘蛛网时发现的部分文字一样, questionhub.com(或其他人)选择显示原始页面上的更多文字, 可能保持原始HTML中的格式或更改格式 符合他们标准的视觉风格。
远程站点可以“请求”spyder不会通过他们的部分/全部网页 通过在名为robots.txt的知名文件中添加规则。蜘蛛没有 必须尊重robots.txt,但一个警惕的网站将跟踪IP地址 spyders不尊重他们的robots.txt文件,然后阻止该IP地址 从他们的网站上看任何东西。您可以在stackoverflow上找到有关robots.txt的大量信息,也可以在google上运行查询。
有几个行业(除了谷歌)建立了你所要求的。堆栈溢出中有标签用于搜索引擎,搜索;阅读其中一些问题/答案。 Lucene / Solr是开源搜索引擎组件。有一个伴侣开源蜘蛛,但现在这个名字让我不知所措。祝你好运。
我希望这会有所帮助。
P.S。因为你似乎是一个新用户,如果你得到一个帮助你的答案,请记住将其标记为已接受,或者给它一个+(或 - )作为一个有用的答案。这也适用于你的其他帖子; - )