R使用某些编码截断文本文件

时间:2016-06-03 10:29:21

标签: r text character-encoding

我试图读入R代码页437中编码的测试文件。Here是文件,这是它的hex-dump:

00000000: 0b0c 0e0f 1011 1213 1415 1617 1819 1a1b  ................
00000010: 1c1d 1e1f 2021 2223 2425 2627 2829 2a2b  .... !"#$%&'()*+
00000020: 2c2d 2e2f 3031 3233 3435 3637 3839 3a3b  ,-./0123456789:;
00000030: 3c3d 3e3f 4041 4243 4445 4647 4849 4a4b  <=>?@ABCDEFGHIJK
00000040: 4c4d 4e4f 5051 5253 5455 5657 5859 5a5b  LMNOPQRSTUVWXYZ[
00000050: 5c5d 5e5f 6061 6263 6465 6667 6869 6a6b  \]^_`abcdefghijk
00000060: 6c6d 6e6f 7071 7273 7475 7677 7879 7a7b  lmnopqrstuvwxyz{
00000070: 7c7d 7e7f ffad 9b9c 9da6 aeaa f8f1 fde6  |}~.............
00000080: faa7 afac aba8 8e8f 9280 90a5 999a e185  ................
00000090: a083 8486 9187 8a82 8889 8da1 8c8b a495  ................
000000a0: a293 94f6 97a3 9681 989f e2e9 e4e8 eae0  ................
000000b0: ebee e3e5 e7ed fc9e f9fb ecef f7f0 f3f2  ................
000000c0: a9f4 f5c4 b3da bfc0 d9c3 b4c2 c1c5 cdba  ................
000000d0: d5d6 c9b8 b7bb d4d3 c8be bdbc c6c7 ccb5  ................
000000e0: b6b9 d1d2 cbcf d0ca d8d7 cedf dcdb ddde  ................
000000f0: b0b1 b2fe 0a                             .....

该文件包含245个字符(包括最终换行符),但R只读取242个字符:

> test_text <- readLines(file('437__characters.txt', encoding='437'))
Warning message:
In readLines(file("437__characters.txt",  :
  incomplete final line found on '437__characters.txt'
> test_text
[1] "\v\f\016\017\020\021\022\023\024\025\026\027\030\031\032\033\034\035\036\037 !\"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\177 ¡¢£¥ª«¬°±²µ·º»¼½¿ÄÅÆÇÉÑÖÜßàáâäåæçèéêëìíîïñòóôö÷ùúûüÿƒΓΘΣΦΩαδεπστφⁿ₧∙√∞∩≈≡≤≥⌐⌠⌡─│┌┐└┘├┤┬┴┼═║╒╓╔╕╖╗╘╙╚╛╜╝╞╟╠╡╢╣╤╥╦╧╨╩╪╫╬▀▄█▌▐░▒"
> nchar(test_text)
[1] 242

你会注意到R没有读到最后的字符&#34;▓■\ n&#34;。

我最好的猜测是,这与R如何确定文本文件的长度有关,原因如下:

  • 即使文件以换行符(0x0a)终止,R也会找到&#39;不完整的最后一行&#39;警告
  • 在文件末尾添加七个或更多字符使其正确读取
  • 同样,如果从文件中的任何位置删除三个字符,则可以正确读取文件
  • 读取其他DOS代码页中编码的文件似乎也会出现同样的问题

这个问题可能有关:R: read.table stops when meeting specific utf-16 characters

1 个答案:

答案 0 :(得分:1)

readLines()似乎有问题,但很可能是file文字连接问题,encoding =部分发生了一些问题。无论如何,这是一个解决方法:将文件加载为二进制文件,然后进行转换。并远离糟糕的伏都教1980年代码页。

使用readLines()

这不会捕获最后一个\n,因为它限制了`readLines()输入的文本单位。

test_text2 <- readLines(file("~/Downloads/437__characters.txt", raw = TRUE))
test_text3 <- stringi::stri_conv(test_text2, "IBM437", "UTF-8")

stringi::stri_length(test_text3)
## [1] 244

test_text3
## [1] "\v\f\016\017\020\021\022\023\024\025\026\027\030\031\034\033\177\035\036\037 !\"#$%&'()*+,-./
## 0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\032 ¡¢£¥ª«¬°±²μ·º
## »¼½¿ÄÅÆÇÉÑÖÜßàáâäåæçèéêëìíîïñòóôö÷ùúûüÿƒΓΘΣΦΩαδεπστφⁿ₧∙√∞∩≈≡≤≥⌐⌠⌡─│┌┐└┘├┤┬┴┼═║╒╓╔╕╖╗╘╙╚╛╜╝╞╟╠╡╢╣╤╥
## ╦╧╨╩╪╫╬▀▄█▌▐░▒▓■"

使用readBin()

捕获包括\n

在内的所有内容
test_text_bin <- readBin(file("~/Downloads/437__characters.txt", "rb"), 
                         n = 245, what = "raw")
test_text_bin_UTF8 <- stringi::stri_conv(test_text_bin, "IBM437", "UTF-8")

stringi::stri_length(test_text_bin_UTF8)
## [1] 245

test_text_bin_UTF8
## [1] "\v\f\016\017\020\021\022\023\024\025\026\027\030\031\034\033\177\035\036\037 !\"#$%&'()*+,-./
## 0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\032 ¡¢£¥ª«¬°±²μ·º
## »¼½¿ÄÅÆÇÉÑÖÜßàáâäåæçèéêëìíîïñòóôö÷ùúûüÿƒΓΘΣΦΩαδεπστφⁿ₧∙√∞∩≈≡≤≥⌐⌠⌡─│┌┐└┘├┤┬┴┼═║╒╓╔╕╖╗╘╙╚╛╜╝╞╟╠╡╢╣╤╥
## ╦╧╨╩╪╫╬▀▄█▌▐░▒▓■\n"