我的任务是清理一个非常混乱的网站http://www.investravel.com/,内置joomla。我首先将整个输出源复制到静态html文件http://www.investravel.com/test.html但是在html版本的整个副本中重复了未知的字符符号。
有没有人知道为什么会这样,因为我觉得很奇怪,因为他们应该向浏览器提供相同的来源。
两个人可能没什么值得的。
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
在原文中,两者拼写略有不同。我删除了两个并添加了正确的W3C版本,但仍无济于事。
任何帮助都非常感激。
答案 0 :(得分:0)
这些在数据库中编码,然后一旦在浏览器中显示,它们就会显示为符号。你会发现同样的事情发生在诸如版权符号之类的事情上(在数据库中它是©
但在源中它将显示为实际符号。你将无法准确复制如果页面使用了大量智能引号和其他符号,则为静态HTML。
为什么你想要一个动态网站并让它首先变为静态?这似乎非常低效。
答案 1 :(得分:0)
我只是尝试使用firefox保存它,并将所有内容保存在UTF8中。
我这样做的方式是:
转到“视图”菜单,选择“字符编码”,并确保它具有“Unicode(UTF-8)”(请注意,强制编码后,请确保所有字符都正确,我尝试使用该编码乍一看似乎都是正确的。)
然后将页面保存为html并打开它,一切都应该没问题!
你的角色错误的原因可能是因为你强迫了其他编码,在你的情况下我检测到了西方(ISO-8859-1)编码。