使用KEA或其他python库进行关键字提取

时间:2016-12-02 08:52:52

标签: java python machine-learning keyword-search

我现在正在为关键字提取项目工作。基本上,我使用python来做到这一点。 让我先谈谈我的项目是什么。 我在这个项目中的目标是从段落或网页中找出关键词(关键词不是那么可取)。

我认为我可以从网站抓取一个非常好的内容结构。

假设我有很多段落,所有段落都来自同一行业。以下是示例段落之一:

  

关于我们

     

我们是世界上最大的银行,提供世界上最安全的服务。我们的银行提供外汇,安全交易和储蓄服务。在过去的几年里,我们成功地建立了可靠的声誉。

其次,我已经将这些段落中的关键字标记为其他具有监督学习模型的内容。

最后,我尝试使用KEA,这是一个JAVA程序(我用python来调用JAVA程序),有一个模型。

然而,结果终于糟透了。准确率仅为15%左右。这意味着如果我给我的KEA程序一个段落,KEA将向我输出10个关键字,将近85%的关键字实际上不是一个理想的关​​键字。

我在这里提出几个问题:

  1. 这个问题是关于KEA的准备材料。是否应将关键字包含在培训数据的.txt文件中?或者我应该从段落中删除它?因为在KEA的自述文件中它很混乱:
  2. '从这些文档中删除作者指定的关键短语    并将它们放入单独的“.key”文件中。例如,如果    您的文档文件名为doc1.txt,移动关键短语    到一个名为“doc1.key”的新文件中。重要的是    你把每个关键短语放在这个文件的单独一行!'

    因此,我想说我的训练数据的最后一个示例段落,并假设'安全'和'可靠'。我应该从段落中删除这两个词吗?

    1. 由于KEA可以应用SKOS词汇表,这是否意味着如果我在某种话题中使用合适的SKOS词汇表(比如金融行业),我的模型结果会更好?如果是,我在哪里可以找到这些SKOS词汇表,例如我想要关于金融行业的SKOS词汇表。

    2. 是否有来自python的建议库可以在本主题中强大?有人可以分享给我吗?

    3. 非常感谢。

1 个答案:

答案 0 :(得分:0)

实际上,我尝试使用这个(https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words)kaggle示例来做到这一点。但是,这太简单了。

不知何故,我想知道更多的练习案例。就像netfix或facebook如何检测人们的评论一样。有人会更多关于这个文本挖掘信息吗?