从文本中提取JSON

时间:2012-05-13 19:22:57

标签: javascript regex json

AJAX调用返回包含JSON字符串的响应文本。我需要:

  1. 提取JSON字符串
  2. 修改
  3. 然后重新插入以更新原始字符串
  4. 我并不太担心第2步和第3步,但我无法弄清楚如何执行第1步。我正在考虑使用正则表达式,但我不知道我的JSON可能有多个级别使用嵌套对象或数组。

3 个答案:

答案 0 :(得分:12)

您不能使用正则表达式从任意文本中提取JSON。由于正则表达式通常为not powerful enough to validate JSON(除非您可以使用PCRE),因此它们也无法匹配 - 如果可以,它们也可以验证JSON。

但是,如果您知道JSON的顶级元素始终是对象或数组,则可以采用以下方法:

  • 找到字符串中的第一个空缺({[)和最后结束(}])大括号。
  • 尝试使用JSON.parse()解析该文本块(包括大括号)。如果成功,则完成并返回解析后的结果。
  • 获取前一个右大括号并尝试解析该字符串。如果成功,你就会再次完成。
  • 重复此操作直到你没有支撑或在当前开口支撑之前的支撑。
  • 在第1步之后找到第一个左大括号。如果没有找到,那么该字符串不包含JSON对象/数组,您可以停止。
  • 转到第2步。

这是一个提取JSON对象并返回对象及其位置的函数。如果你真的需要顶级数组,也应该扩展:

function extractJSON(str) {
    var firstOpen, firstClose, candidate;
    firstOpen = str.indexOf('{', firstOpen + 1);
    do {
        firstClose = str.lastIndexOf('}');
        console.log('firstOpen: ' + firstOpen, 'firstClose: ' + firstClose);
        if(firstClose <= firstOpen) {
            return null;
        }
        do {
            candidate = str.substring(firstOpen, firstClose + 1);
            console.log('candidate: ' + candidate);
            try {
                var res = JSON.parse(candidate);
                console.log('...found');
                return [res, firstOpen, firstClose + 1];
            }
            catch(e) {
                console.log('...failed');
            }
            firstClose = str.substr(0, firstClose).lastIndexOf('}');
        } while(firstClose > firstOpen);
        firstOpen = str.indexOf('{', firstOpen + 1);
    } while(firstOpen != -1);
}

var obj = {'foo': 'bar', xxx: '} me[ow]'};
var str = 'blah blah { not {json but here is json: ' + JSON.stringify(obj) + ' and here we have stuff that is } really } not ] json }} at all';
var result = extractJSON(str);
console.log('extracted object:', result[0]);
console.log('expected object :', obj);
console.log('did it work     ?', JSON.stringify(result[0]) == JSON.stringify(obj) ? 'yes!' : 'no');
console.log('surrounding str :', str.substr(0, result[1]) + '<JSON>' + str.substr(result[2]));

演示(在nodejs环境中执行,但也应在浏览器中运行):https://paste.aeum.net/show/81/

答案 1 :(得分:1)

对于那些正在寻找(就像我)一般从文本中提取JSON字符串的人(即使它们无效),你可以看看这个Gulp插件https://www.npmjs.com/package/gulp-extract-json-like。它搜索所有看似格式化为JSON字符串的字符串。

创建文件夹并安装包。

mkdir project && cd project
npm install gulp gulp-extract-json-like

创建文件./gulpfile.js并将以下内容放入其中:

var gulp = require('gulp');
var extractJsonLike = require('gulp-extract-json-like');

gulp.task('default', function () {
  return gulp.src('file.txt')
    .pipe(extractJsonLike())
    .pipe(gulp.dest('dist'));
});

创建一个名为./file.txt的文件,其中包含您的文本并运行以下命令。

gulp

找到的JSON字符串将在./dist/file.txt

答案 2 :(得分:0)

如果JSON作为ajax响应的一部分返回,为什么不使用浏览器本机JSON解析(小心gotchas)?或jQuery JSON Parsing

如果JSON完全被文本破坏了,那真的是一个设计问题恕我直言 - 如果你可以改变它,我强烈建议这样做(即返回一个JSON对象作为响应,文本为对象的属性)。

如果没有,那么使用RegEx将是一场绝对的噩梦。 JSON自然非常灵活,确保准确的解析不仅耗时,而且浪费时间。我可能会在开始/结束时放入内容标记并希望获得最佳效果。但是你会对验证错误等持开放态度。