我开发了一个工具,可以根据用户在浏览器中将其显示的方式创建网页缩略图。
如果所有用户都看到相同的内容,我只想生成一次缩略图。但是,如果内容是自定义的或私人的(例如facebook home),则生成的缩略图仅适用于该特定用户而非每个人。
我的问题如下: - 我如何检查网页是否包含私人信息或显示以避免尝试获取它们?
我的研究使我认为,如果使用https连接,则内容是私有的。但是,并非所有网站都使用https,而数据是私有的但不敏感,例如facebook使用http作为您的个人主页。 我相信有一种方法可以检查php是否通过会话记录了用户,以检测该用户是否在登录类型的网站中。
有什么想法吗?
提前致谢, GAEL
答案 0 :(得分:1)
你做不到。您不知道网站如何进行会话管理或以其他方式识别用户。它可能是cookie,以URL或其他方式编码。
答案 1 :(得分:1)
- 我如何检查网页是否包含私人信息或显示以避免尝试获取它们?
我认为最终结果将是你不能。例如,Facebook不使用https。
有一个可能的私有网站的指标,如登录字段的存在,但仍然没有告诉您用户是否登录到它。
您还无法确定用户是否已登录到站点,因为此信息对服务器是私有的,并且无论用户是否登录,大多数站点都将维护会话cookie。
此外,有些网站用户不希望在缩略图中结束,即使它们不是私密的(* cough * YouPorn * cough *)。
答案 2 :(得分:1)
要考虑的一个想法是使用社交过滤器。 GMail的垃圾邮件陷阱就是一个众所周知的例子。我们的想法是,您可以生成最佳预览,但然后为用户提供某种小部件,以将网站预览标记为不准确(即:“如果此网站预览不准确,请选中此框” - 包含子选项,其中一个原因是“此页面包含个人信息,具体取决于使用它的用户”)。然后定义一个算法,以确定在您决定停止提供该网站的预建预览之前,有多少人必须单击该小部件。
这种方法的一个缺点是它依赖于大量使用网站的用户才能准确 - 当你的工具年轻且未使用时,这种方法方法不会很准确。此外,少数人访问的网站也会使这种方法难以准确。
编辑:超越这些问题的一种方法是仅根据访问频率预生成预览。换句话说,一旦特定站点开始被足够多的用户请求,那么您开始预生成预览 - 包括小部件,然后,允许用户告诉您停止预生成它。该方法可能有效,因为您可以保证足够的用户可以使用它来使小部件有用。