这是GAE Search API中的错误吗?

时间:2013-10-13 20:31:37

标签: google-app-engine gae-search

我正在基于GuitarParty.com上的歌曲数据库实施全文搜索。数据由多种语言的歌词组成,这本身并不是问题。

但是,当使用snippeted_fields返回搜索结果时,单词中的所有重音字符(例如ÚúÉéÍí)将使用其通用的非重音版本UuEeIi返回。

这就是我形成查询的方式:

    query = search.Query( 
        query_string=qs, 
        options=search.QueryOptions(
            sort_options=search.SortOptions(
                #match_scorer=search.MatchScorer(),
                match_scorer=search.RescoringMatchScorer(),
                expressions=[
                    search.SortExpression(expression='_score + importance * 0.03', default_value=0)
                    #search.SortExpression(expression='_score', default_value=0)
                ],
                limit=1000,
            ),
            cursor=cursor, 
            returned_fields=['title','atomtitle','item', 'image'],
            snippeted_fields=['title','atomtitle', 'body','item'],
        )
    )

我很确定这不是一个编码问题,因为如果我直接拉出文档字段(就像我对标题一样),一切看起来都是正确的。只有那些被错误显示的被忽视的exoressions。

为了更好地了解我所指的内容,您可以在此处使用我的测试引擎:http://gp-search.appspot.com/并搜索某些冰岛语。示例短语:VísurvatnsendaRósu

这将返回包含以下代码段的文档:

  

Augun min og augunþin。 Oþafogru steina。 Mitt erþitt ogþitt er mitt,þuveisthvað例如mei na。 Langtersiðanssa hannsannlegafriðurvarhann。

正确拼写的片段应为:

  

Augunmínogaugunþín。 Óþáfögruspina。 Mitt erþitt ogþitt er mitt,þúveisthvað例如mei na。 Langtsíðansáéghannsannlegafriðurvarhann。

我最好从文档数据中生成自己剪切的内容,还是我可以做些什么来在单词中添加带重音字符的片段?

1 个答案:

答案 0 :(得分:1)

您输入的数据会被标准化,这样您在搜索时就不必担心重音或重音错误。