UTF-8编码不受`analyze_entities`的尊重

时间:2018-02-28 15:48:26

标签: python-3.x google-language-api

我尝试使用google cloud nock.activeMocks(); // [ 'GET https://www.example.com:443/fake/url', 'POST https://sts.amazonaws.com:443/' ] nock.pendingMocks(); // [ 'GET https://www.example.com:443/fake/url' ] api从某些输入文本中提取命名实体,但是,我发现编码参数正在发生一些可疑的事情。我跑的时候

language_v1

txt = '''La divinité des uji la plus importante était ( et est toujours ) Amaterasu , la déesse solaire . '''.strip() client = language.LanguageServiceClient() document = types.Document(content=txt, type=enums.Document.Type.PLAIN_TEXT, language='fr') ents = client.analyze_entities(document, encoding_type=EncodingType.UTF8) 可以正确检测实体' Amaterasu'但是,返回的起始偏移量是67而不是65.但是,如果我指定ents,则偏移量是正确的。

请注意,默认情况下,python源代码文件的编码是UTF-8,无论如何,如果我将文本存储在UTF-8文件中并且使用正确的编码读取它,我会得到相同的结果。知道发生了什么事吗?

0 个答案:

没有答案