我正在编写一个爬虫并获取非英语网站的标题。当我在我的控制台中打印标题时,得到这样的结果:
শà§à¦°à§à¦²à¦à§à¦à¦¾à¦° à¦à¦¾à¦²à§ সà§à¦à¦¨à¦¾
ফà¦à¦¿à¦°à¦¾à¦ªà§à¦²à§ হাতবà§à¦®à¦¾ বিসà§à¦«à§à¦°à¦£, à¦à¦à¦ ১৬
দà§à¦ বাà¦à¦²à¦¾à¦¦à§à¦¶à¦¿à¦à§ নিà§à§ à¦à§à¦à§ বিà¦à¦¸à¦à¦«
à¦à¦¾à¦®à¦¾à§à¦¾à¦¤ নà§à¦¤à¦¾ সà§à¦²à¦¿à¦®à¦¸à¦¹ দà§à¦à¦¨ à¦à§à¦°à§à¦ªà§à¦¤à¦¾à¦°
我不知道如何从上面的字符串中获取正确的文字。
有什么想法吗?
提前致谢。
答案 0 :(得分:5)
这看起来像UTF-8编码的孟加拉语文本,带有散布的HTML字符引用,错误地解释为windows-1252字符。也可以是其他任何事情,真的。
在抓取网页时,您应该在决定字符编码时大致了解浏览器和常规搜索引擎所做的事情。这远非微不足道。在HTML5 RC中,第8.2.2.1节Determining the character encoding试图描述该过程。