我正在使用Java和Cassandra DB构建社交Web应用程序。我希望我的数据库中的一些数据对搜索引擎可见。 由于我的应用程序是完全动态的&只包含在数据库而不是静态页面中的数据,爬虫如何读取这些数据?
1.)如何确保搜索引擎可以看到存储在我服务器上的数据?我的应用程序包含用户特定数据
2.)搜索引擎如何访问该数据?
3.)如何限制搜索引擎只抓取某些特定数据?
答案 0 :(得分:1)
阅读the explanations from Google。
搜索引擎以您网站的任何其他用户的身份访问您的数据:浏览并点击他们找到的所有链接。只有通过AJAX才能访问的内容将更难以被搜索引擎访问。
可以使用robots.txt文件限制访问权限。解释在上面给出的链接中给出。
答案 1 :(得分:0)
1)您需要将用户特定信息与公共信息分开,您应该拥有公共页面和私有页面 - 或者您可以通过基于会话的Ajax调用来装饰具有用户细节的公共页面。
含义:浏览器只加载页面的公共版本,而javascript会加载用户细节并将其注入页面。
2和3可以通过将网站地图上传到Google来解决。
或者您希望Google直接与Cassendra交谈......?然后忽略以上所有 - 我想。