有什么方法可以获得大量数据的乐趣? (即Twitter,del.icio.us等API)

时间:2009-04-05 14:29:22

标签: twitter statistics artificial-intelligence machine-learning

Twitter,Google,Amazon,del.icio.us等都为您提供了大量数据,全部免费。通过Project Gutenberg等计划,还有很多文本数据可供使用。而且,这似乎只是冰山一角。

我一直想知道如何使用这些数据来获得乐趣。我是第一年的IT学生,所以我不了解统计学,机器学习,协同过滤等。我对Toby Segaran的编程集体智慧一书激起了我对此领域的兴趣,现在我想深入了解一下你可以用数据做些什么。我不知道从哪里开始。有什么想法吗?

我一直在思考是否应该去购买人工智能编程范式这样的东西。这个城市的旅行值得吗?

7 个答案:

答案 0 :(得分:6)

尝试通过马尔可夫链生成器从Guttenberg以不同风格开始书籍 - Perl here中有一个可以帮助您入门。

答案 1 :(得分:3)

可视化,做它们,分享它们。

答案 2 :(得分:1)

你可以用一些数据来赚钱(如果你真的很好!) http://www.netflixprize.com/ Netflix提供了匿名数据集,并要求更好的算法来预测客户的选择。

答案 3 :(得分:1)

如果您熟悉Python,请尝试使用nltk。它拥有大量用于文本挖掘甚至机器学习的库。尝试通过nltk book

答案 4 :(得分:1)

如果您想从简单的AI问题开始,您可以尝试群集。

http://en.wikipedia.org/wiki/Data_clustering

您可以使用它通过标签或类似的东西将flickr图像组合在一起。

答案 5 :(得分:0)

你可以制作像刽子手游戏这样的谜题。或者使用mashup或试用Yahoo管道来加入信息。

答案 6 :(得分:0)

根据数据预测未来股市趋势。利润!