如何通过usocket读取utf-8字符串

时间:2011-12-09 12:41:14

标签: networking lisp sbcl

当我使用以下代码从 usocket 流中阅读时:

(let ((stream (socket-stream sk)) line)
  (loop for line = (read-line stream)
     while line do (format t line)))

当read-line遇到非ascii字符时,它会抛出异常:

decoding error on stream
#<SB-SYS:FD-STREAM
  for "socket 118.229.141.195:52946, peer: 119.75.217.109..."
  {BCA02F1}>
(:EXTERNAL-FORMAT :UTF-8):
  the octet sequence (176) cannot be decoded.
   [Condition of type SB-INT:STREAM-DECODING-ERROR]

read-line和read-byte都不起作用,所以我尝试使用trivial-utf-8来读取utf-8字符串 使用read-utf-8-string,但它只接受二进制流,似乎socket-stream不会创建二进制流,所以我很困惑如何从具有非ascii charactors的套接字流中读取?

3 个答案:

答案 0 :(得分:1)

您可以先read-sequence(如果您知道提前的长度)或read-bytes,但有一些,然后将它们转换为(babel:octets-to-string octets :encoding :utf-8))的字符串(其中八位字节是{{ 1}})。

答案 1 :(得分:1)

您收到的错误表示您尝试读取的数据实际上不是有效的UTF-8数据。实际上,176(= #b10110000)不是可以引入UTF-8字符的字节。如果您尝试读取的数据采用其他编码,请尝试相应地调整Lisp编译器的外部格式设置,或使用BabelFLEXI-STREAMS解码数据。 / p>

答案 2 :(得分:0)

一旦我需要它,我就懒得找一个库去做,所以我自己做了:)这可能不是最好的方法,但我只需要快速而不复杂的东西,所以在这里云:

(defun read-utf8-char (stream)
  (loop for i from 7 downto 0
     with first-byte = (read-byte stream nil 0)
     do (when (= first-byte 0) (return +null+))
     do (when (or (not (logbitp i first-byte)) (= i 0))
          (setf first-byte (logand first-byte (- (ash 1 i) 1)))
              (return
            (code-char 
             (dotimes (a (- 6 i) first-byte)
               (setf first-byte
                     (+ (ash first-byte 6)
                        (logand (read-byte stream) #x3F)))))))))