处理来自网页抓取的无效字符

时间:2012-07-19 22:24:49

标签: ruby-on-rails ruby web-scraping mechanize

我编写了一个网络刮刀,使用Nokigiri和Mechanize从网站中提取大量信息,后者输出数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如keppnisæfindScémarioKlätiring,这会阻止种子文件运行。种子文件太大而无法通过搜索和替换,所以我该如何处理这个问题呢?

2 个答案:

答案 0 :(得分:0)

我认为那些是html字符,你所需要做的就是编写将清理字符的函数。这取决于编程平台

答案 1 :(得分:0)

几乎可以肯定是UTF-8字符;这些词应该像keppnisæfind,Scémario和Klätiring。有问题的网站可能正在发送UTF-8,但未将其声明为编码,在这种情况下,您必须强制Mechanize将UTF-8用于没有声明编码的网站。但是,如果您遇到没有声明编码的其他网站并且他们发送了除UTF-8之外的其他内容,则可能会使问题复杂化。