Question

我目前正在使用以下代码扫描二进制文件：

 while (offset < headerLength) {
        memset(buffer, 0, sizeof(buffer));
        [bookData getBytes:buffer range:NSMakeRange(0 + offset, 4)];
        NSString *output = [NSString stringWithCString:buffer encoding:NSUTF8StringEncoding];

        if ([output isEqualToString:@"EXTH"]) {
           ...
        }
        offset++;
 }

然而，我怀疑这不是正确的方法，因为它很慢。那么如何搜索特定的字符串？

好但是慢：

while (offset < headerLength) {
    memset(buffer, 0, sizeof(buffer));
    [bookData getBytes:buffer range:NSMakeRange(0 + offset, 4)];

    if (buffer[0] == 'E' && buffer[1] == 'X' && buffer[2] == 'T' && buffer[3] == 'H') {
        //run my stuff
        break;
    }
    offset++;
}
memset(buffer, 0, sizeof(buffer));

不运行我的东西

FILE * handle = fopen ([path UTF8String], "r");
while (1) {
    fseek(handle, ++offset, SEEK_SET);
    if (fgets(buffer, 4, handle)) {
        if (buffer[0] == 'E' && buffer[1] == 'X' && buffer[2] == 'T' && buffer[3] == 'H') {
            //doesn't run my stuff
            break;
        }
    }
}
fclose(handle);

Answer 1

IO很慢，因此我会以大块读取并避免从循环内的流中读取小块。 getBytes：从NSData对象的字节中复制到缓冲区中，因此您也希望避免频繁地执行此操作。这是一些未经测试的伪代码，假设你的NSData对象开始于：

const char *bytes = [bookData bytes];
while (offset < headerLengh - 4)
{
    if (bytes[offset] == 'E' && bytes[offset + 1] == 'X' && bytes[offset + 2] == 'T' && bytes[offset + 3] == 'H')
    {
        //...
    }
    offset++;
}

我会注意到这种类型的搜索存在更快/更复杂的算法，例如boyer-moore，但现在应该这样做。

我还建议不要在循环中创建许多NSString对象。如果需要，可以从NSData对象创建NSString，并适当地检索循环内的子串。

Answer 2

不是在每次迭代中创建一个完整的NSString，而是直接比较原始字节：

memset(buffer, 0, sizeof(buffer));
while (offset < headerLength) {
   [bookData getBytes:buffer range:NSMakeRange(0 + offset, 4)];
   if (buffer[0] == 'E' && buffer[1] == 'X' && buffer[2] == 'T' && buffer[3] == 'H') {

       ...
   }
   offset++;
}

这假设你的缓冲区当然是4 char。

另外，我不相信需要用memset清除每次迭代的内存。在循环之前只做一次。

Answer 3

自从我练习普通的旧式C风格文件阅读以来，已经有一段时间了，但基本上，就是这样......

file handle = fopen('/var/mobile/...', 'r');
char *buf = malloc(4 * sizeof(char));
long offset = 0;
while (1) {
   fseek(handle, ++offset);
   ret = fgets(handle, 4, &buf); // returns NULL on EOF
   if (ret) {
      if (buf[0] == 'E' && ...) {
         // Your logic goes here
         break;
      }
   }
   else
      break;
}
fclose(handle);

当然这是伪代码，随时调查或纠正我。

使用getBytes扫描文件：范围：？

3 个答案: