HTML源代码中这些奇怪的字符是什么?

时间:2015-03-03 18:09:07

标签: html text encoding

我的朋友经营一个网站并收到了来自Google Safesearch的电子邮件,通知他他正在托管网页仿冒页面。事实证明他的cPanel是强制性的(弱密码),他们将一些页面上传到他的服务器上。他告诉了我这件事,我想看看它有多复杂。

在许多文件中,某些文字/部分文字很奇怪。它们在Web浏览器中完美显示,但在HTML中混杂不堪。我想知道是否有人可以告诉我这是什么?

示例:

<title>WеlÑоmе tо еВаy: Sign in</title>
<span class="txtbox_title">Раsswоrd</span>
<a class="three" href="#">Fоrgоt yоur 

值得注意的是,整个页面中的正常文本也能完美显示。

我认为这是为了停止检测页面中的某些单词,但我不确定。任何信息都会很棒。

编辑:最初被标记为PHP。我意识到它可能不应该被删除它。很好,孩子们。

编辑编辑:为清楚起见,这是一个针对易趣用户的网页仿冒网页。

我在原帖中发布的示例(按顺序):

eBay: Sign In
Your Password
Forgot your [password]

因此我不认为它是任何类型的恶意软件,而是一种加密文本以在Chrome等浏览器中对抗检测的方法(我假设在其算法中检测到'热'字)。

2 个答案:

答案 0 :(得分:1)

我的最佳猜测是它是自定义类型的键盘记录程序。键盘记录器将解析WеlÑоmе tо еВаy以将一些数据输出到数据库中,以后可以挖掘这些数据以获取重要信息。

我的第二次猜测是,它是一种吓唬或弄乱拥有该网站的人的手段。

我的第三次猜测是病毒是由中国或其他语言编码的,当代码被转换回utf-8时,它会导致一些未使用的字符输出奇怪的内容内容。

修改


我的 fith 猜测网络钓鱼网站是以编程方式获取ebay网站的源代码内容并将其解析为自己的html文件。 ebay通过在源代码中加扰字母来对抗这种类型的攻击有自己的对策。

有了这个必须有某种类型的javascript来解除原始源代码的影响。

答案 1 :(得分:1)

他们使用UTF-8编码的西里尔字母以及可能因其与普通拉丁字母的视觉相似性而选择的其他字符。您正在编辑器中查看该页面,该编辑器不会将数据解释为UTF-8,而是将其解释为拉丁语1编码。

例如,您所看到的“о”实际上是两个字节,0xD0 0xBE。当解释为UTF-8数据(这是浏览器在这里做的)时,它们代表“о”U + 043E CYRILLIC SMALL LETTER O.它与视觉外观中的常见拉丁字母“o”相同(任何包含两者的字体)字母),但由于属于不同的书写系统而被编码为单独的字符。对于任何程序,它们都是截然不同的字符,除非程序已被单独编码以处理“混淆”。

这种混淆通常是出于各种原因故意制造的。您可能正确地假设这里的目的是“停止检测页面中的某些单词”。例如, “忘记”是使用西里尔语(F?rg?t)编写的,正常的搜索操作会在搜索“忘记”时找到它。