如何提取信息?

时间:2015-05-31 06:52:28

标签: python nlp nltk

目标:我正在尝试在自然语言处理(NLP)上做一个项目,在那里我想提取信息并以图形形式表示。

说明

  1. 我正在考虑将新闻文章作为我项目的输入。
  2. 删除输入中的不需要的数据&以清洁格式制作。
  3. 表演NLP&提取信息/知识
  4. 以图形格式表示信息/知识。
  5. 可能吗?

2 个答案:

答案 0 :(得分:0)

如果想使用nltk,您可以启动here。它有关于标记化,词性标注,解析等的一些解释。

使用nltk检查此page以获取命名实体检测的示例。

可以使用igraphmatplotlib执行图形表​​示。

此外,scikit-learn有一个很棒的text feature extraction方法,以防你想要运行一些更复杂的模型。

答案 1 :(得分:0)

第一步是尝试用铅笔手工完成这项工作。不只是一个,而是一系列新闻故事。你真的必须做到这一点,而不是只考虑它。像你想要的那样绘制图形。

这样做会迫使您创建有关如何将信息转换为图形的规则。这并不总是可行的,所以手工操作是一个很好的测试。如果您不能这样做,那么您就无法对计算机进行编程。

假设你找到了纸和笔的方法。我喜欢做的是工作后退。您的方法从文本开始。不。从绘制图形所需的数字开始。然后你想想故事中这些数字的位置以及我需要用什么词来获得这些数字。你的工作现在更像是一次狩猎之旅,你知道数据存在,但是如何找到它。

很抱歉缺乏详细信息,但我不知道您确切的问题,但这适用于所有情况。首先要学会自己在纸上完成工作,然后从输出到输入工作。

如果你试图向前设计这个软件,你很快就会陷入困境,因为你不可能知道如何处理你的文字,因为你不知道你需要什么,它是什么就像推绳子一样,它不起作用。走到另一端拉绳子。首先是图形工作,然后从新闻报道中提取所需的数据。