应用错误收集

我想实施某些服务，我的客户可以使用这些服务找到他们的公司一个。博客，论坛湾facebook，twitter C。审查网站

一个。博客，论坛这只能由爬虫来完成，对吧？爬虫在论坛/博客上寻找robots.txt，并且可选择阅读论坛/博客的内容（当然还有链接）。但从哪里开始？我可以使用一组网站开始抓取吗？我必须预定义它们还是我可以先使用其他一些searchengine？例如。在谷歌搜索该公司，然后抓取SERP？法律？

湾facebook，twitter 他们有API，所以帽子应该不是我认为的问题。

℃。审查网站我查看了一些评论网站的TOS，他们写道，使用自动软件抓取他们的网站是不允许的。另一方面，在我们的robots.txt中不允许与我相关的网站。重要的是什么？

欢迎任何其他提示。

提前致谢： - ）

老实说，最简单的方法是从搜索引擎开始。它们都有用于进行自动搜索的API，因此，您可能会获得回报链接/提及客户产品或品牌的最高回报。

这不会处理身份验证背后的事情，只会处理公共事物（当然）。但它会给你一个良好的基线开始。从那里，你可以（如果你想的话）使用在网站上获得auth信誉的API或自定义编写的机器人，但老实说，我认为在那一点上你错过了核心问题，我认为。

核心问题是“我们在哪里提到过？”或者确实是核心问题......“哪些网站有流量来找我们？”在大多数情况下，它是后者，在这种情况下，您可以忽略我之前说过的所有内容，只需使用Google Analytics或客户网站上的类似软件来确定流量的来源。

修改好的，所以如果它是我们提到的地方，我仍然会按照规定启动搜索引擎。 Google的api非常简单，它有一个基于SOAP的API，如果你愿意，可以作为web引用引入; example

Re：评论网站。如果网站的TOS说你不能使用自动机器人，那么不使用自动机器人是个好主意。 robots.txt没有法律约束力（它是一种好邻居的东西），所以我不会在那里使用缺乏排除权限。一些评论网站（更现代的网站）可能不允许自动抓取他们的网站，但他们可能仍然会发布RSS提要或Atom提要或者您可以使用其他一些API，这值得检查。

如何实施社交媒体/网站监控服务？

1 个答案: