应用错误收集

时间：2011-11-20 13:35:00

标签： java web-crawler

我做了一个网页抓取工具，下载了很多页面，现在我需要处理它下载的数据。

问题在于我的数据来自多个页面，包含所有类型的格式和错误。

我希望能够修复一些错误的编码，删除所有不可打印的字符并用其他字符替换一些字符（例如：有很多引用字符。我想用常见代码替换。）。

有很多事情要做。我想知道的是，如果有一个图书馆或我可以使用的东西，或者我需要我的解决方案来满足我的需求。

答案 0 :(得分：0)

我知道您已经进行了一些抓取，但我仍然建议您在抓取时确保使用正确的编码存储数据。否则数据在处理之前可能会丢失。

对于字符替换，我会编写自己的实用程序类，使用较小的可测试过滤器方法，在内部使用regexp。这些方法应该有自己的测试用例，以确保它们按预期工作。

答案 1 :(得分：0)

也许Tidy可以提供帮助（http://tidy.sourceforge.net/）或Jsoup（http://jsoup.org/）

您可以通过Tidy或Jsoup将其形式化为正确的格式（DOM）。

PS：我更喜欢Jsoup。