我正在开展一个涉及大量文本挖掘的项目(基于DataCamp课程中概述的步骤"与专家的机器学习")。
我有一个'矢量图'在我的管道中执行以执行标记化。
('vectorizer', HashingVectorizer(token_pattern=TOKENS_ALPHANUMERIC,
non_negative=True,
norm=None,
binary=False,
ngram_range=(1, 2),
n_features = 2 ** 18
)
)
虽然需要一段时间,但考虑到1克和2克时,上述步骤可以正常工作。我不得不将n-features从默认值2 ** 20中减少以使其工作。
作为下一步,我想考虑功能交互,因此我将此步骤添加到管道中。
('int', SparseInteractions(degree=2))
可以在此处找到SparseInteractions的代码 https://github.com/drivendataorg/box-plots-sklearn/blob/master/src/features/SparseInteractions.py
问题是,一段时间后shell重新启动而没有任何错误指示。似乎添加交互对我的笔记本电脑来说太过分了。有没有人对如何解决/解决这个问题有任何建议?
感谢。