我编写了一个网络刮刀,使用Nokigiri和Mechanize从网站中提取大量信息,后者输出数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如keppnisæfind
,Scémario
和Klätiring
,这会阻止种子文件运行。种子文件太大而无法通过搜索和替换,所以我该如何处理这个问题呢?
答案 0 :(得分:0)
我认为那些是html字符,你所需要做的就是编写将清理字符的函数。这取决于编程平台
答案 1 :(得分:0)
几乎可以肯定是UTF-8字符;这些词应该像keppnisæfind,Scémario和Klätiring。有问题的网站可能正在发送UTF-8,但未将其声明为编码,在这种情况下,您必须强制Mechanize将UTF-8用于没有声明编码的网站。但是,如果您遇到没有声明编码的其他网站并且他们发送了除UTF-8之外的其他内容,则可能会使问题复杂化。