我正在尝试使我的代码更高效,因为它需要近1个小时来运行。我正在创建从熊猫数据框到文本字段的嵌入。我的数据框有3万多行。
module_url = "https://tfhub.dev/google/universal-sentence-encoder/4"
embed = hub.KerasLayer(module_url)
the_list=[]
for ls in df["mytext"].values.tolist():
the_list.append(embed([str(ls)]))
embeddings=np.array([vec[0] for vec in the_list])
我正在寻找不同的方式,例如:
the_list=[]
for ls in df["mytext"].values.tolist():
the_list.append(str(ls))
embeddings = embed(the_list)
但是它花费的时间甚至更长,有时我的计算机由于没有足够的资源而崩溃。
我正在使用python 3和tensorflow 2。