Question

我正在开展一个涉及大量文本挖掘的项目（基于DataCamp课程中概述的步骤＆＃34;与专家的机器学习＆＃34;）。

我有一个＆＃39;矢量图＆＃39;在我的管道中执行以执行标记化。

('vectorizer', HashingVectorizer(token_pattern=TOKENS_ALPHANUMERIC,
                                 non_negative=True, 
                                 norm=None, 
                                 binary=False,
                                 ngram_range=(1, 2),
                                 n_features = 2 ** 18
                                )
)

虽然需要一段时间，但考虑到1克和2克时，上述步骤可以正常工作。我不得不将n-features从默认值2 ** 20中减少以使其工作。

作为下一步，我想考虑功能交互，因此我将此步骤添加到管道中。

('int', SparseInteractions(degree=2))

可以在此处找到SparseInteractions的代码 https://github.com/drivendataorg/box-plots-sklearn/blob/master/src/features/SparseInteractions.py

问题是，一段时间后shell重新启动而没有任何错误指示。似乎添加交互对我的笔记本电脑来说太过分了。有没有人对如何解决/解决这个问题有任何建议？

感谢。

使用scikit-learn，shell重启的故障训练模型

0 个答案: