如何识别推文中的网址是图片,视频,文章还是推文链接?

时间:2018-07-26 16:39:41

标签: twitter nlp data-analysis

我正在收集推文。并希望根据图像,视频和文章将它们分开。基本上根据他们的媒体内容进行推文隔离

我是否可以通过任何方式或逻辑识别推文中的URL引用了某些图像,视频或文章?

1 个答案:

答案 0 :(得分:3)

对于媒体,您可以选中Extended Entities Object。在对象中,有一个名为"type"的密钥-如果您正在分析的推文中包含某种媒体,则值可以是"photo""video""animated_gif"中的一个。


对于文章,您可以在检查扩展实体对象时检查纯文本Entities Object,如果该推文中不包含任何媒体(因为twitter中的媒体也是URL,这意味着如果该推文不包含任何媒体,则该推文中包含的URL必须是链接)。

您可以在Entities Object API中获得HTML标题和链接说明,但是不幸的是,Twitter API不提供Twitter Cards-如果您需要Twitter Card信息,则应解析HTML <head>元素并获取HTML信息自己。有关详细信息,请参见Twitter Cards documentation