在RStudio

时间:2017-03-29 05:44:59

标签: xml encoding utf-8 rstudio

我想读一个看起来像这样的.xml文件:

<?xml version="1.0" encoding="UTF-8"?>
<province name="北京市" id="11">
  <city name="市辖区" id="110100000000">
    <county name="东城区" id="110101000000">
      <town name="珍珠泉乡" id="110229214000">
        <village name="珍珠泉乡社区居委会" id="110229214001" type="220"/>
        <village name="珍珠泉村委会" id="110229214200" type="210"/>
        <village name="称沟湾村委会" id="110229214201" type="220"/>
        <village name="庙梁村委会" id="110229214202" type="220"/>
        <village name="下水沟村委会" id="110229214203" type="220"/>
        <village name="上水沟村委会" id="110229214204" type="220"/>
        <village name="下花楼村委会" id="110229214205" type="220"/>
        <village name="八亩地村委会" id="110229214206" type="220"/>
        <village name="转山子村委会" id="110229214207" type="220"/>
        <village name="水泉子村委会" id="110229214208" type="220"/>
        <village name="双金草村委会" id="110229214209" type="220"/>
        <village name="小川村委会" id="110229214210" type="220"/>
        <village name="小铺村委会" id="110229214211" type="220"/>
        <village name="仓米道村委会" id="110229214212" type="220"/>
        <village name="南天门村委会" id="110229214213" type="220"/>
        <village name="桃条沟村委会" id="110229214214" type="220"/>
      </town>
    </county>
  </city>
</province>

我使用Sys.setlocale("LC_ALL", locale="Chinese (Simplified)")将系统区域设置设置为简体中文,并使用带有UTF-8编码doc = xmlParse(files[i], encoding = "UTF-8", useInternalNodes = TRUE)的XML包读取文档,但是当我查看doc时,中文字符未正确显示:

<village id="110229214001" type="220" name="鐝嶇彔娉変埂绀惧尯灞呭浼?/>
        <village id="110229214200" type="210" name="鐝嶇彔娉夋潙濮斾細"/>
        <village id="110229214201" type="220" name="绉版矡婀炬潙濮斾細"/>
        <village id="110229214202" type="220" name="搴欐鏉戝浼?/>
        <village id="110229214203" type="220" name="涓嬫按娌熸潙濮斾細"/>
        <village id="110229214204" type="220" name="涓婃按娌熸潙濮斾細"/>
        <village id="110229214205" type="220" name="涓嬭姳妤兼潙濮斾細"/>
        <village id="110229214206" type="220" name="鍏憨鍦版潙濮斾細"/>
        <village id="110229214207" type="220" name="杞北瀛愭潙濮斾細"/>
        <village id="110229214208" type="220" name="姘存硥瀛愭潙濮斾細"/>
        <village id="110229214209" type="220" name="鍙岄噾鑽夋潙濮斾細"/>
        <village id="110229214210" type="220" name="灏忓窛鏉戝浼?/>
        <village id="110229214211" type="220" name="灏忛摵鏉戝浼?/>
        <village id="110229214212" type="220" name="浠撶背閬撴潙濮斾細"/>
        <village id="110229214213" type="220" name="鍗楀ぉ闂ㄦ潙濮斾細"/>
        <village id="110229214214" type="220" name="妗冩潯娌熸潙濮斾細"/>

我还尝试将系统区域设置设置为English_United States.1252,但问题仍然存在。 一个奇怪的是,当我使用doc上的某些函数时,例如xmlRoot(doc)getNodeSet(doc,"//village")[1],中文字符会正确显示。但不是所有功能,如果我使用xmlAttrs(getNodeSet(doc,"//village")[[1]]),它就有问题。

2 个答案:

答案 0 :(得分:0)

试试xml linq

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Xml;
using System.Xml.Linq;
using System.IO;

namespace ConsoleApplication49
{
    class Program
    {
        const string FILENAME = @"c:\temp\test.xml"; 
        static void Main(string[] args)
        {
            StreamReader reader = new StreamReader(FILENAME);
            var z = reader.ReadLine();

            XDocument doc = XDocument.Load(reader);

            var results = doc.Descendants("village").Select(x => new
            {
                name = (string)x.Attribute("name"),
                id = (long)x.Attribute("id"),
                type = (int)x.Attribute("type")
            }).ToList();

        }
    }
}

答案 1 :(得分:0)

这似乎是编码的问题。我的目标是从xml文件中提取村庄信息。在我提取信息后,当我检查村名列的编码时,它显示编码为"unknown"。所以我添加了一个命令来使该列的编码为&#34; UTF-8&#34;它的工作原理。我的代码如下所示。

但我仍然不知道为什么编码是未知的。当我使用encoding="UTF-8读取xml文件时,我已经在一开始就指定了xmlParse()。谁知道为什么?我在阅读xml文件时是否犯了错误?

> village = as.data.frame(t(xmlSApply(doc["/province/city/county/town/village"],xmlAttrs)),stringsAsFactors=FALSE)
> View(village)
> Encoding(village[1,"name"])
[1] "unknown"
> Encoding(village[,"name"])="UTF-8"   #added this line and the display is fine now