我正在研究Tweet-Sentiment-Analysis / Opinion-Mining of Tweets,专注于与财务相关的推文。
我面临的最大问题之一是,当使用Financial slang时,我的算法无法检测到等效实体(B.Liu 2012中的定义:Page 18-19)。例如,对于那些熟悉它的人,我希望在词形简化之后将以下实体检测为等效:
以下是我的两个问题:
感谢。
答案 0 :(得分:3)
您可以构建一个简单的数据集,以编程方式在Google上搜索与您的课程相匹配的新闻摘要。返回的摘要构成您的训练数据集(多个类)。一旦经过培训,您就可以通过模型传递每条新的(相关的)推文。
构建数据集
Here是一些帮助抓取新闻摘要的代码。它基于 this笔记本贴在Kaggle上。只需相应修改您的搜索。
返回结果的一些示例(为了简洁而剪断),
"Sovereign-Debt"+Government-Bonds
,返回
"T-Notes"
,返回
培训数据集
您的训练数据集将类似于以下(句子,标签)元组,
Treasury Notes
)Treasury Notes
)Treasury Notes
)Stocks
)Stocks
)Government Bonds
)Government Bonds
)希望这有帮助。