我正在尝试将包含类别和标签的1000篇文章网站(ASP SQL Server)导出到WordPress博客中。这些文章最初是用Microsoft Word编写的,包含许多非UTF-8字符。然后将它们复制并粘贴到Microsoft Access中。这些文章目前存储在SQL Server 2008数据库中,并使用iso-8859-1 charset显示在网站上
我正在使用默认的WordPress导入/导出xml文件(WordPress eXtended RSS(WXR)文件),该文件是从WordPress导出博客时使用的文件中复制的。此文件需要UTF-8编码。
我的问题是iso-8859-1字符破坏了导入器,许多文章没有完全导入。这些字符
naïve ,
and funny characters such as “ ’
我的问题是我如何清理所有文本,我可以创建一个替换函数来清理有趣的引号,但是总会有像naïve这样的随机单词会导致问题?
将所有文本的编码从iso-8859-1转换为UTF-8的最简单方法是什么?
答案 0 :(得分:1)
请参阅http://en.wikipedia.org/wiki/Iconv:
iconv是一个计算机程序和用于在不同字符编码之间进行转换的标准化API。
如果您被困在纯Windows上(即使不是Cygwin),并且您不同意将文件复制到Unix系统并在那里执行转换可能是最简单的,http://www.unicodetools.com/有一堆转换工具。