谷歌应用程序引擎数据存储标签云与python

时间:2011-03-07 12:41:34

标签: python google-app-engine tag-cloud

我们的应用引擎数据存储区中有一些非结构化文本数据。我想在数据存储区对象的子集上创建一个属性的“一次性”标记云。环顾四周之后,我看不到任何允许我自己编写的框架。

我的想法是:

  • 编写一个地图(如map reduce中),以遍历数据存储区中特定类型的每个对象,
  • 将文字字符串拆分为文字
  • 每个单词增加一个计数器
  • 使用最终计数通过一些第三方软件生成标签云(离线 - 欢迎任何建议)

因为我之前从未这样做过,所以如果首先有一些框架可以解决这个问题(),我会徘徊,如果不是我以正确的方式接近它。请随意指出计划中的漏洞。

1 个答案:

答案 0 :(得分:5)

Feed TagCloudPyTagCloud是两种可能性。

  • Feed TagCloud Generator Gadget for Google App Engine可能适合您 需要。不幸的是,它是 无证。幸运的是 相当简单,虽然我不确定 它是多么适合您的需求。

    它在Feed上运行,然后出现 有点灵活,所以如果你 有你的网站的饲料,它可能 不要太麻烦了 整合,虽然所有处理 将在线。

  • PyTagCloud也值得 看。你将能够做到 脱机处理,并生成 相当英俊的云。

    你需要做的就是得到这个 工作,导出您的数据存储区; 计数和分裂将是 像PyTagCloud一样为你完成 对文本文件进行操作。以下 App Engine中的说明 有关Uploading and Downloading Data的文档会告诉您 如何将数据存储导出到您的 本地机器。你会想写的 一个“出口商类”,并有 PyTagCloud在输出上运行。


如果您决定推销自己的,您可能希望跳过在线处理并使用上面Uploading and Downloading Data的离线方法,除非您需要动态更新的云。迭代整个数据存储,进行在线计数是任务中最烦人且最昂贵的部分。如果您想要或需要动态标签云,这样做才有意义。如上所述,我建议写一个“Exporter Class”,然后在本地操作。