这可能听起来很愚蠢,但你知道如何构建文本语料库吗?我到处搜索,已经存在语料库,但我想知道它们是如何构建的?例如,如果我想用正面和负面推文构建语料库,那么我只需制作两个文件?但那些文件的内在呢?别拿它((((( in this example他在RedisDB中存储pos和neg推文。
答案 0 :(得分:4)
但那些文件的内部呢?
这主要取决于您正在使用的库。 XML(带有各种标签)很常见,每行一个句子。棘手的部分是首先获取数据。
例如,如果我想用正面和负面推文构建语料库
这是否意味着您想知道如何将推文标记为正面和负面?如果是这样,您正在寻找的是文本分类或语义分析。
如果你想找到一堆推文,我会查看其中一个页面(只是通过我自己的快速搜索)。
Clickonf5:http://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/
Google网上论坛:http://groups.google.com/forum/?fromgroups#!topic/twitter-development-talk/kfislDfxunI
关于如何创建语料库的一般性学习,我会查看Richard Xiao的Handbook of Natural Language Processing Wiki。