Question

我尝试使用google cloud nock.activeMocks(); // [ 'GET https://www.example.com:443/fake/url', 'POST https://sts.amazonaws.com:443/' ] nock.pendingMocks(); // [ 'GET https://www.example.com:443/fake/url' ] api从某些输入文本中提取命名实体，但是，我发现编码参数正在发生一些可疑的事情。我跑的时候

language_v1

txt = '''La divinité des uji la plus importante était ( et est toujours ) Amaterasu , la déesse solaire . '''.strip() client = language.LanguageServiceClient() document = types.Document(content=txt, type=enums.Document.Type.PLAIN_TEXT, language='fr') ents = client.analyze_entities(document, encoding_type=EncodingType.UTF8)可以正确检测实体＆＃39; Amaterasu＆＃39;但是，返回的起始偏移量是67而不是65.但是，如果我指定ents，则偏移量是正确的。

请注意，默认情况下，python源代码文件的编码是UTF-8，无论如何，如果我将文本存储在UTF-8文件中并且使用正确的编码读取它，我会得到相同的结果。知道发生了什么事吗？

UTF-8编码不受`analyze_entities`的尊重

0 个答案: