我使用“网页,已过滤”的“另存为”选项保存了MS-Word文档。我想插入HTML&在内部生成的CSS代码包含我的标题,菜单,页脚等的HTML5文档。第一个问题是关于字符集和标题信息:
MS-Word生成的HTML(保存为“网页,已过滤”):
<html>
<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 12 (filtered)">
我的HTML5模板:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8" />
我看到的主要问题是两个不同的字符集(UTF-8 vs windows-1252)。另外,我猜测元标记“ name = Generator content =”Microsoft Word 12(已过滤)“不会出现问题,也许可以删除(?)。
我可以用一个例外来理清CSS。我不知道'@'符号是什么意思。例如:
@font-face
{font-family:"Book Antiqua";
panose-1:2 4 6 2 5 3 5 3 3 4;}
我查看了文档,但没有看到“font-face”ID或类。所以我猜测这可能会改变文档中的所有字体。这可能是一个问题(如果是真的);如上所述,新文档将包含我的菜单,页眉,页脚等。
答案 0 :(得分:0)
你不应该复制和粘贴ms office的任何东西到网站上;主要是因为你的代码变得很乱,而且很可能只在IE中看起来很正常。这是我的经验,因为我得到了很多“你的网站坏了!!!”有人将ms-word-“html”粘贴到joomla页面后抱怨。 无论如何,你网站上的字符集必须是utf-8。 你的@ font-face看起来很糟糕。我只用稍微不同的语法知道它:
@font-face {
font-family: "Awesomefont";
src: url("fonts/awesome.ttf");
}
这一点不会做任何事情,直到你在其他地方申请“Awesomefont”:
h1 { font-family: "Awesomefont"; }
答案 1 :(得分:0)
以下是一组PowerShell脚本,它们将清除Word-Filtered HTML并在95%的时间内正确标记超级/下标。 (不,你不能比这更好,Word是为了打印而制作的。)
https://github.com/suzumakes/replaceit
这也会将Windows-1252类中M $ barfs的字符更改为相应的UTF-8对应字符。它删除了所有样式和类,以便您可以轻松地将HTML直接放入模板中。根据制作Word文档的人对文本和时髦布局的合理性而言,你可能只需要几分钟的清理,或者你可能需要修复M $在整个地方插入软连字符的倾向。
自述文件中有说明,如果您碰巧遇到任何需要捕获的其他字符或进行任何调整/改进,我很乐意看到您的请求。