Ngram订单选择功能工程

时间:2016-08-13 07:28:06

标签: feature-extraction feature-detection n-gram

我正致力于文本分类的特征工程。我在选择功能方面遇到了困难。大多数文献都说明了文本的标记并将它们用作特征(删除停用词,标点符号),但是你会错过像(肺癌)或短语这样的多字词。所以问题是如何确定ngram订单并将其视为特征?

2 个答案:

答案 0 :(得分:0)

相关的2克(在这种情况下为肺癌)将按频率出现 想象一下以下文字:

  

我知道患有肺癌的人:肺癌是一种可怕的疾病。

2-gram vs Frequency

如果你列出了2克,那么你将首先以肺癌结束;和其他组合('有龙&#39 ;;'讨厌龙')第二。 这是因为某些单词组代表某些东西 - 因此被重复调用 - 而其他单词只是连接符('具有'或#39;讨厌')形成2-gram'环境& #39 ;.关键是按频率过滤。

如果您在生成n-gram时遇到问题,我觉得您可能使用了错误的库/工具集。

答案 1 :(得分:0)

我想说,这在很大程度上取决于您的训练数据。您可以可视化二元组和三元组频率的分布。这可能使您对n-gram顺序的相关性有所了解。您可能还希望在调查期间使用名词块。相关名词块(或其中的一部分)可能会经常出现。它可能会让您了解如何选择n-gram。