我想优化此功能。 它将超过数千行。
当前可以使用,但是将其应用于具有很多记录的列非常慢。 谁能想到一种更快的方式来运行此脚本? 关于记录总数,我大约需要45秒。
from ngram import NGram
import time
d = {'col1': ["instruments",'instruments music','instrum 2']}
d = pd.DataFrame(data=d)
start = time.time()
d['ratio'] = d['col1'].apply(lambda x: ngram.NGram.compare(x,'instrum'))
print time.time() - start