Watson AlchemyLanguage来自同一网址的网址和文字得分差异

时间:2016-08-06 11:21:38

标签: ibm-watson alchemyapi

为什么情感/情感分数在输入法作为网址和来自同一网址的直接文字之间存在显着差异?

例如:

  • 网址:http://economictimes.indiatimes.com/markets/stocks/news/greed-could-turn-into-fear-anytime-keep-strict-stop-losses-for-long-positions-jimeet-modi/articleshow/53569552.cms

  • 文字(摘自上面的网址):

    Nifty50在本周初以高位开盘,在周中徘徊,但在系统流动性涌入的支撑下成功反弹。 PMI数据指向经济加速。宏观指标显示7月份的扩张幅度为5.2%,而5月份为2.8%,而去年同期为2.8%。市场也在不断贬低令人鼓舞的宏观经济数据。 7月汽车增长数据让街道感到惊讶。乘用车的平均增长率为12%,表明该系统具有明显的经济稳健性。在这十年之际,打破新法律的道路将使该国成为世界第二大经济体。本周的重要事件:上周已经制定了历史性的开创性税收改革基金会。现在上层建筑将在一段时间内通过国家批准等建成。商品及服务税将真正引领印度加速腐败,为国内群众提供包容性增长。立法者为了迅速和无忧无虑的债务追偿,以及时的方式进一步加强了“破产法”,使印度实现了债务自由经济,这些修正案得到了彻底的修正。现在,PSU银行的生态系统将永久性地发生变化,它们也将像私营部门同行一样盈利。我们为您推荐此视频ADSPARC PTY LTD推荐哥伦比亚技术展望:Nifty50在过度扩张的反弹中重新上升势头。然而,动量指标并未支持涨势。但是,在流动性驱动的反弹期间,市场可能会在较长时间内保持在超买水平。贪婪使市场保持在缓和水平。然而,情绪可能会从贪婪变为恐惧,在一夜之间发生一些负面消息,导致纠正开始。交易者应该在多头头寸上停留,投资者应该保持观望,直到市场触及Nifty50的8300-8400水平的回归通道的较低水平。长期趋势是完整的,但短期内已经成熟,需要进行修正。对本周的期望:市场充满了希望宏观因素有利于进一步的经济增长和扩张。市场将在中型股空间显示大量活动,因此前线指数可能不会显示中型股空间的潜在波动。在许多无组织的运营商运营的行业中运营的公司将从GST中受益。有利的季风和即将来临的节日将使市场保持在缓和的水平。应该利用任何修正来建立长期投资组合。交易者应该发挥动力股并追踪利润。 Nifty50收高0.52%至8,683。

2 个答案:

答案 0 :(得分:1)

使用URL时,AlchemyLanguage会尝试从网页中提取重要信息,删除导航链接,广告和其他不需要的内容。在这种情况下,我认为提取的文本似乎与您使用text端点手动提供的文本不同。

如果您使用TEXT,您基本上是在发送要分析的文本,因此您没有与URL相关的无关文本。

AlchemyLanguage允许您在使用URL时查看提取的文本。只需将showSourceText=1添加到请求中即可。这将显示分析过程中使用的文本。

请参阅:http://www.ibm.com/watson/developercloud/alchemy-language/api/v1/#emotion_analysis

答案 1 :(得分:1)

Watson尝试从URL中提取最相关的输入数据。但在某些情况下,根据我们对主要内容的定义,它可能无法获得准确的文本数据。

根据您对主要内容的定义,在您的情况下,文章的最后一段是从URL中提取的。 (文章的最后一段是含糊不清的,有人可能会认为它是文章的一部分,有人可能不会。)

来自网址的最后一段文字:

  

(作者是SAMCO证券公司的首席执行官。本节中表达的观点和建议是他自己的,不代表ETMarkets.com的观点和建议。在担任任何职位之前请咨询您的财务顾问。)

由于最后一段中的某些实体/关键字/代币会影响整体情绪分数,因此您会发现2分之间存在一些差异。

您可以查看在线演示以获取更多信息:Online Demo

对于API,您可以查看: showSourceText sourceText 参数

参考:Alchemy Sentiment API