读取windows-1251中编码的html(rus)

时间:2012-02-22 14:03:08

标签: xml r encoding

我在解析windows-1251或CP1251(俄语)中编码的html文件时遇到了一些问题。 给出html文件,例如:

<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<table cellspacing="0" cellpadding="2" border="0" width="100%">
                          <tr bgcolor="#FFFFFF">
                            <td class="xl27" align="center">Место</td>
                            <td class="xl27" align="center">ПИФ</td>
                            <td class="xl27" align="center">УК</td>
                            <td class="xl27" align="center">Тип фонда</td>
                            <td class="xl27" align="center">Категория фонда</td>
                            <td class="xl27" align="center">Специализация</td>
                            <td class="xl27" align="center">Доходность</td>
                           </tr></table>

我运行以下脚本:

Sys.setlocale("LC_ALL", "Russian_Russia.1251")
require(XML)
htmlfile<-paste('C:\\YourWD\\data.html')
htable<-readHTMLTable(htmlfile)[[1]]

htable [1,1]的输出类似于“РњРμСЃС,Рѕ” 其编码被

确定为“未知”
unique(sapply(tab,function(x)Encoding(as.character(x))))

提前致谢!

0 个答案:

没有答案