应用错误收集

处理来自网页抓取的无效字符

时间：2012-07-19 22:24:49

标签： ruby-on-rails ruby web-scraping mechanize

我编写了一个网络刮刀，使用Nokigiri和Mechanize从网站中提取大量信息，后者输出数据库种子文件。不幸的是，我发现源网站上的文本中有很多无效字符，例如keppnisÃ¦find，ScÃ©mario和KlÃ¤tiring，这会阻止种子文件运行。种子文件太大而无法通过搜索和替换，所以我该如何处理这个问题呢？

2 个答案:

答案 0 :(得分：0)

我认为那些是html字符，你所需要做的就是编写将清理字符的函数。这取决于编程平台

答案 1 :(得分：0)

几乎可以肯定是UTF-8字符;这些词应该像keppnisæfind，Scémario和Klätiring。有问题的网站可能正在发送UTF-8，但未将其声明为编码，在这种情况下，您必须强制Mechanize将UTF-8用于没有声明编码的网站。但是，如果您遇到没有声明编码的其他网站并且他们发送了除UTF-8之外的其他内容，则可能会使问题复杂化。