建立自己的文本语料库

时间:2012-07-04 11:25:17

标签: text corpus

这可能听起来很愚蠢,但你知道如何构建文本语料库吗?我到处搜索,已经存在语料库,但我想知道它们是如何构建的?例如,如果我想用正面和负面推文构建语料库,那么我只需制作两个文件?但那些文件的内在呢?别拿它((((( in this example他在RedisDB中存储pos和neg推文。

1 个答案:

答案 0 :(得分:4)

  

但那些文件的内部呢?

这主要取决于您正在使用的库。 XML(带有各种标签)很常见,每行一个句子。棘手的部分是首先获取数据。

  

例如,如果我想用正面和负面推文构建语料库

这是否意味着您想知道如何将推文标记为正面和负面?如果是这样,您正在寻找的是文本分类或语义分析。

如果你想找到一堆推文,我会查看其中一个页面(只是通过我自己的快速搜索)。

Clickonf5:http://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/

Quora:http://quora.com/What-is-the-best-tool-to-download-and-archive-Twitter-data-of-certain-hashtags-and-mentions-for-academic-research

Google网上论坛:http://groups.google.com/forum/?fromgroups#!topic/twitter-development-talk/kfislDfxunI

关于如何创建语料库的一般性学习,我会查看Richard Xiao的Handbook of Natural Language Processing Wiki