我做了一个网页抓取工具,下载了很多页面,现在我需要处理它下载的数据。
问题在于我的数据来自多个页面,包含所有类型的格式和错误。
我希望能够修复一些错误的编码,删除所有不可打印的字符并用其他字符替换一些字符(例如:有很多引用字符。我想用常见代码替换。)。
有很多事情要做。我想知道的是,如果有一个图书馆或我可以使用的东西,或者我需要我的解决方案来满足我的需求。
答案 0 :(得分:0)
我知道您已经进行了一些抓取,但我仍然建议您在抓取时确保使用正确的编码存储数据。否则数据在处理之前可能会丢失。
对于字符替换,我会编写自己的实用程序类,使用较小的可测试过滤器方法,在内部使用regexp。这些方法应该有自己的测试用例,以确保它们按预期工作。
答案 1 :(得分:0)
也许Tidy可以提供帮助(http://tidy.sourceforge.net/)或Jsoup(http://jsoup.org/)
您可以通过Tidy或Jsoup将其形式化为正确的格式(DOM)。
PS:我更喜欢Jsoup。