在TM包中创建自己的Source

时间:2015-01-08 12:29:56

标签: r tm corpus

我可以从一个大文本文件创建一个语料库,但结果我只有一个文档。 如果此文本文件包含可用于在其中生成文档的解析器文本(例如“ZZ”),如何指示Corpus函数使用“ZZ”分隔符作为文档标识符?

E.g。

TEXTFILE:

ZZ APREPITANT (EU) Tabletten Quartalsbericht Nr. 1 Vorprojekt
Timing für EU Launch
Projektteam:
Dr. G, Dr. Gi, Dr. R, Hr. M, Fr. Braun, A. R;
Referenzprodukt:
ATC-Gruppe: (HPK: 411) EmendTM
ZZ BENDAMUSTIN (EU) - lyophil. Pulver Quartalsbericht Nr. 12 Zulassungsprojekt
Timing für EU Launch
Kristina R
Projektteam:
Dr. Britta E, Dr. H, Gieß, Holtz, Dr.F, Kristina R
Referenzprodukt: namehere (namehere)
ATC-Gruppe: Antineoplastische Mittel ­ alkylierende (L01A)
Geplante Produkte: 25, 100 mg lyophil. Pulver (2,5mg/ml) [ggf. 200mg Sondergröße]
API Hersteller:
namehere
qualif.:02+08/'11; (Q2/'14)
API Alternative: ---
DP Entwickler:
namehere

使用此脚本corp只有一个Doc.Identifier

x <- read.csv(file_loc, header = FALSE)
corp <- Corpus(DataframeSource(x))

有没有办法生成语料库,其中“ZZ”识别同一语料库的两个不同文档?有没有办法生成自定义源格式,以便这可能?

0 个答案:

没有答案