我有一个连续的任务,我认为可以使用R自动化。 使用twitteR-package,我提取了一个推文列表。这些被分为正(和中性)和负推文。这是一个manuel任务 - 但我正在研究一些机器学习。
我的问题是触及部分。我不仅想知道正面和负面推文的数量,还想知道潜在的人们接触到推文的人数。
有一种方法可以使用twitteR-package执行此操作,但速度很慢,因为它需要机器在每次搜索之间休眠。对于成千上万的推文,这对我来说不是一个合适的方式。
我的想法是,如果可以使用html< - 网页< - getURL(“http://www.twitter.com/AngelHaze”)从Twitter的html源代码中提取关注者的数量,并在此提取数量追随者。
此外,除此之外,我希望能够使用URL的矢量(“http://www.twitter.com/AngelHaze”)执行此操作,然后将它们组合到具有ScreenName(AngelHaze)和关注者数量的数据框中。我来自丹麦,因此包含关注者数量的源代码看起来像这样
a class =“ProfileNav-stat ProfileNav-stat - link u-borderUserColor u-textCenter js-tooltip js-nav u-textUserColor”title =“196.262følgere”data-nav =“followers” HREF = “/ AngelHaze /跟踪”,“
“196.262følgere”是相关部分。
这可能吗?如果是的话,有人可以帮助我吗?
Best,Sander Ehmsen。