Question

我正在尝试通过使用Azure读取图像上的文本来从计算机视觉api结果中获取值。输出为JSON数据，但结果的语法看起来很奇怪。

最终，我试图从中剥离出值“ text”，并将其写入文本文件中，而没有任何转义字符等。

这是我使用的代码解析结果。

static async Task MakeOCRRequest(string imageFilePath)
{
    try
    {
        HttpClient client = new HttpClient();
        client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
        string requestParameters = "language=unk&detectOrientation=true";
        string uri = uriBase + "?" + requestParameters;
        HttpResponseMessage response;
        byte[] byteData = GetImageAsByteArray(imageFilePath);

        using (ByteArrayContent content = new ByteArrayContent(byteData))
        {
            content.Headers.ContentType = new MediaTypeHeaderValue("application/octet-stream");
            response = await client.PostAsync(uri, content);
        }

        string contentString = await response.Content.ReadAsStringAsync();

        ///////  It is at this point that I want to get the values from the "text" field
        JToken token = JToken.Parse(contentString).ToString();
        String[] result = contentString.Split(',');
        Console.writeline("\nResponse:\n\n{}\n", JToken.Parse(contentString).ToString());

    }
    catch (Exception e)
    {
        Console.WriteLine("\n" + e.Message);
    }
}

这是我从OCR流程中得到的结果。我没有包括完整的结果，因为它代表了1700多行。


  "language": "en",
  "textAngle": 0.0,
  "orientation": "Right",
  "regions": [
    {
      "boundingBox": "140,300,639,420",
      "lines": [
        {
          "boundingBox": "419,300,87,15",
          "words": [
            {
              "boundingBox": "419,300,87,15",
              "text": "0000175351"
            }
          ]
        },
        {
          "boundingBox": "140,342,337,47",
          "words": [
            {
              "boundingBox": "140,347,92,38",
              "text": "WE."
            },
            {
              "boundingBox": "241,347,13,36",
              "text": "1"
            },
            {
              "boundingBox": "266,342,211,47",
              "text": "0/1-1.9(2)"
            }
          ]
        },

使用当前代码，我会收到错误消息

JObject textResult = token["regions"]["text"].Value<JObject>();

无法访问NewtonSoft.Json.Linq.JValue上的子值。

我想知道我是否要求输入错误的密钥？

Answer 1

如果您需要检索所有text属性值，而不管boundingBox是什么，那么您可以在将json解析为JToken后使用下面的linq。

JToken jToken = JToken.Parse(json);

var allTexts = jToken["regions"].SelectMany(reg => reg["lines"].SelectMany(line => line["words"]).Select(word => word["text"].ToString()).ToList()).ToList();

输出：（来自调试器）

Answer 2

假设您有一个有效的JSON字符串现在，您可以使用Newtonsoft.Json程序包并将json字符串反序列化为object，然后使用object获取值：

ResponseModel res = JsonConvert.DeserializeObject<ResponseModel>(contentString);

您的响应模型可能是像这样的pocco类：

public class ResponseModel
{
    public string language { get; set; }
    public string textAngle { get; set; }
    public string orientation { get; set; }
    //you have to create pocco class for RegionModel
    public List<RegionModel> regions { get; set; }
    ....
}

从JSON结果C＃获取值

2 个答案: