如何在所有文档中使用Elasticsearch中的带状符来获得最常见的单,双,三克

时间:2015-07-18 21:04:06

标签: elasticsearch lexical-analysis n-gram

我在弹性搜索索引中使用以下字段定义:

       protected void btnQ2Next_Click(object sender, EventArgs e)
       {
          if (Session["USER_ID"] != null)
          {
        SqlConnection con = new SqlConnection(@"Data Source=.;Initial Catalog=Student;Integrated Security=True");
        SqlCommand cmd = new SqlCommand("UPDATE Survey SET (Q2 = @Q2, Q2_Comments = @Q2_Comments)", con);
        cmd.Parameters.AddWithValue("Q2", radListQ2.SelectedValue);
        cmd.Parameters.AddWithValue("Q2_Comments", txtQ2Comments.Text);

        con.Open();
        cmd.ExecuteNonQuery();
        con.Close();

        Response.Redirect("Q3.aspx");
          }
       }

其中,"my_text" :{ "type" : "string", "index" : "analyzed", "analyzer" : "my_ngram_analyzer", "term_vector": "with_positions", "term_statistics" : true } 用于使用带状疱疹将文本标记为n-gram,并定义为:

my_ngram_analyzer

我有两个问题:

  1. 如何在所有文档中找到最常见的n-gram(n = 1到5)及其频率?
  2. 有没有办法在没有使用termvector API和term_statistics查询文档的情况下获取n-gram的总学期频率?

0 个答案:

没有答案