SpaCy模型不会加载AWS Lambda

时间:2017-12-19 02:33:02

标签: aws-lambda spacy

有没有人让SpaCy 2.0在AWS Lambda中工作?我已经将所有内容压缩并正确打包,因为如果我测试它,我可以从lambda函数中获取一个通用字符串。但是,当我执行下面的简单函数进行测试时,它会停止大约10秒然后返回空,并且我没有收到任何错误消息。我确实将我的Lambda超时设置为60秒,这不是问题所在。

import spacy

nlp = spacy.load('en_core_web_sm') #model package included

def lambda_handler(event, context):
    doc = nlp(u'They are')
    msg = doc[0].lemma_
    return msg


import spacy

nlp = spacy.load('en_core_web_sm') #model package included

def lambda_handler(event, context):
    msg = 'message returned'
    return msg

3 个答案:

答案 0 :(得分:4)

知道它可能会变得简单。答案是没有足够的分配内存来运行Lambda函数 - 我发现我必须将其最小化地增加到接近最大2816 MB才能使上面的示例工作。值得注意的是,在上个月之前,不可能走得这么高:

我将它调高到最大3008 MB以处理更多文本,现在一切似乎都很好。

答案 1 :(得分:1)




import spacy
import boto3
import os

def download_dir(client, resource, dist, local='/tmp', bucket='s3bucket'):
    paginator = client.get_paginator('list_objects')
    for result in paginator.paginate(Bucket=bucket, Delimiter='/', Prefix=dist):
        if result.get('CommonPrefixes') is not None:
            for subdir in result.get('CommonPrefixes'):
                download_dir(client, resource, subdir.get('Prefix'), local, bucket)
        if result.get('Contents') is not None:
            for file in result.get('Contents'):
                if not os.path.exists(os.path.dirname(local + os.sep + file.get('Key'))):
                     os.makedirs(os.path.dirname(local + os.sep + file.get('Key')))
                resource.meta.client.download_file(bucket, file.get('Key'), local + os.sep + file.get('Key'))

def handler(event, context):
    client = boto3.client('s3')
    resource = boto3.resource('s3')
    if (os.path.isdir("/tmp/en_core_web_sm")==False):
        download_dir(client, resource, 'en_core_web_sm', '/tmp','ryfeus-spacy')
    nlp = spacy.load('/tmp/en_core_web_sm/en_core_web_sm-2.0.0')
    doc = nlp(u'Apple is looking at buying U.K. startup for $1 billion')
    for token in doc:
        print(token.text, token.pos_, token.dep_)
    return 'finished'

P.S。要在AWS Lambda中打包spacy,您必须剥离共享库。

答案 2 :(得分:0)

对我有用的是cd插入<YOUR_ENV>/lib/Python<VERSION>/site-packages/ and removing the language models I didn't need. For example, I only needed the English language model so once in my own site-packages directory I just needed to run a ls -d * / | grep -v zh | xargs rm -rf`,然后压缩内容使其在Lambda的限制下。