如何实施社交媒体/网站监控服务?

时间:2011-01-08 15:52:39

标签: java monitoring

我想实施某些服务,我的客户可以使用这些服务找到他们的公司 一个。博客,论坛 湾facebook,twitter C。审查网站

一个。博客,论坛 这只能由爬虫来完成,对吧?爬虫在论坛/博客上寻找robots.txt,并且可选择阅读论坛/博客的内容(当然还有链接)。 但从哪里开始?我可以使用一组网站开始抓取吗?我必须预定义它们还是我可以先使用其他一些searchengine?例如。在谷歌搜索该公司,然后抓取SERP?法律?

湾facebook,twitter 他们有API,所以帽子应该不是我认为的问题。

℃。审查网站 我查看了一些评论网站的TOS,他们写道,使用自动软件抓取他们的网站是不允许​​的。另一方面,在我们的robots.txt中不允许与我相关的网站。重要的是什么?

欢迎任何其他提示。

提前致谢: - )

1 个答案:

答案 0 :(得分:1)

老实说,最简单的方法是从搜索引擎开始。它们都有用于进行自动搜索的API,因此,您可能会获得回报链接/提及客户产品或品牌的最高回报。

这不会处理身份验证背后的事情,只会处理公共事物(当然)。但它会给你一个良好的基线开始。从那里,你可以(如果你想的话)使用在网站上获得auth信誉的API或自定义编写的机器人,但老实说,我认为在那一点上你错过了核心问题,我认为。

核心问题是“我们在哪里提到过?”或者确实是核心问题......“哪些网站有流量来找我们?”在大多数情况下,它是后者,在这种情况下,您可以忽略我之前说过的所有内容,只需使用Google Analytics或客户网站上的类似软件来确定流量的来源。

修改 好的,所以如果它是我们提到的地方,我仍然会按照规定启动搜索引擎。 Google的api非常简单,它有一个基于SOAP的API,如果你愿意,可以作为web引用引入; example

Re:评论网站。如果网站的TOS说你不能使用自动机器人,那么不使用自动机器人是个好主意。 robots.txt没有法律约束力(它是一种好邻居的东西),所以我不会在那里使用缺乏排除权限。一些评论网站(更现代的网站)可能不允许自动抓取他们的网站,但他们可能仍然会发布RSS提要或Atom提要或者您可以使用其他一些API,这值得检查。