使用Google Cloud DLP API处理表格太慢

时间:2018-07-25 17:08:13

标签: google-cloud-platform google-cloud-dlp

最近,我一直在尝试使用Python 3中的Google DLP API对表的内容进行分类。我首先从在一些小示例上测试API开始,这些示例都运行良好。但是,当我尝试发送更大的表(1000行x 18列,小于500000配额)时,请求将崩溃。 在将表的大小减小到100行之后,我确实设法使其运行,但是一个100行的请求大约需要10秒钟。 大多数值都比较短,您会在下面找到一些列:

  • 地址
  • 出生日期
  • 电子邮件
  • 名字
  • 性别
  • 职位空缺
  • 姓氏

此外,经过进一步的实验,我注意到,如果以CSV格式的字符串形式提供相同的表(列以“,”分隔,行以“ \ n”分隔),则运行时间减少了1/3倍。 10.

这是正常行为吗?还是我可能不好用api导致如此糟糕的运行性能?

我希望我的问题很清楚, 感谢您抽时间阅读 ! :)

1 个答案:

答案 0 :(得分:1)

这是一个正在解决的已知问题。一些检测器(DOB和名称检测器)在结构化数据上的工作速度比预期的慢。