金融俚语和NLP用于情绪分析

时间:2016-08-04 14:17:27

标签: algorithm twitter nlp finance sentiment-analysis

我正在研究Tweet-Sentiment-Analysis / Opinion-Mining of Tweets,专注于与财务相关的推文。

我面临的最大问题之一是,当使用Financial slang时,我的算法无法检测到等效实体(B.Liu 2012中的定义:Page 18-19)。例如,对于那些熟悉它的人,我希望在词形简化之后将以下实体检测为等效:

  • 政府债券=政府=主权债务
  • 现金=货币
  • 股票=股票
  • FX =外汇=货币兑换=外汇
  • Bund = German-Bonds = Bundesbank 10y
  • T-Notes = US10 = Treasury-Notes = US-Govies = American-Sovereign-Debt
  • 等等...

以下是我的两个问题:

  1. 我正在考虑使用一些监督学习(朴素 - 贝叶斯分类)来完成这样的任务,但是找不到任何用于训练的分类数据集。你知道这样的数据集是否存在吗?
  2. 您对如何执行此类任务有任何其他想法吗?
  3. 感谢。

1 个答案:

答案 0 :(得分:3)

您可以构建一个简单的数据集,以编程方式在Google上搜索与您的课程相匹配的新闻摘要。返回的摘要构成您的训练数据集(多个类)。一旦经过培训,您就可以通过模型传递每条新的(相关的)推文。

构建数据集

Here是一些帮助抓取新闻摘要的代码。它基于 this笔记本贴在Kaggle上。只需相应修改您的搜索。

返回结果的一些示例(为了简洁而剪断),

  • "Sovereign-Debt"+Government-Bonds,返回
    • 政府债券获利,一年期收益率下降三个基础......”
    • “俄罗斯主权债务连续第三天下跌,因石油交易接近四个月低点。”
  • "T-Notes",返回
    • “投机者将其对美国10年期国债期货的净看涨押注从2012年末以来的最高水平下调,根据......”
    • “美国财政部每月举行七年<强> T-notes (国库券)拍卖会。”

培训数据集

您的训练数据集将类似于以下(句子,标签)元组,

  • “......成为一种安全避风港携带的车辆,相比之下,对于10%美国政府,英国脱欧......,Treasury Notes
  • “投机者将其对美国10年期<强>期货期货的净看涨押注从2012年末以来的最高水平下调”Treasury Notes
  • “自2012年以来美国10年<强> T-notes 最高的投机者净多头Treasury Notes
  • “美国股票在非农就业人数增加后创下历史新高”Stocks
  • “欧洲权益基准关闭混合;自动股票坍塌..”Stocks
  • “在瑞士,政府债券到期时间最长......”Government Bonds
  • “......价值约1.6万亿美元的负收益<强>主权债务 ......”Government Bonds

希望这有帮助。