词分类算法比利时

时间:2016-04-18 07:04:26

标签: algorithm nlp text-mining

对于大学项目,我需要构建一个软件,根据虚拟建筑工地的一些评论,检测其实际状态(just startedin constructionterminated)。< / p>

例如,鉴于评论:

  • &#34;很高兴听到我们可以走过英吉利海峡大桥&#34;
  • &#34;昨天我去了新建的桥,和我的朋友一起去法国旅行&#34;
  • &#34;他们刚刚完成了这个网站,并且已经在第5英里处出现了裂缝。真是令人失望!&#34;

系统应检测到&#34;英吉利海峡大桥&#34;施工现场已经结束。

目前我正在尝试选择用于此项目的单词分类算法。我在网上搜索 用于最佳分类算法。我读过有关SVC的内容,但由于我并不是这个领域的专家, 我不确定SVC与我的场景的合规性/良好性。

我想要获得的不是我的问题的解决方案,而是可用算法的列表及其优缺点。

1 个答案:

答案 0 :(得分:1)

您正在错误地制定问题,因此人们很难为您提供优缺点列表。

您所描述的问题并非真正的单词分类问题,因为您没有对单词进行分类。你要做的是:

  1. 建筑项目的命名实体识别
  2. 根据提及的上下文,将每个构造命名实体分为3种不同的类型。
  3. 算法不是真正的问题。大多数分类算法(线性回归,决策树,SVM等)都可以使用。

    您实际拥有的问题(但根据您的问题没有意识到)是您没有没有培训数据用于查找构建项目命名实体或将这些实体分类到您的实体后对其进行分类3类。

    我的建议是你使用其中一个免费提供的NER工具包/库,添加与建筑项目相关的字典功能(像桥,塔等等),看看你能做些什么你工作的第一部分。

    更重要的考虑因素是:

    1. 您需要多少时间/金钱才能获得带注释的数据?
    2. 您需要什么样的表现?
    3. 您愿意接受哪些语言/图书馆(最不重要的问题恕我直言)
    4. 对不起,我意识到这可能不是你想听到的答案,但我怀疑这是你需要的答案。 ;)