我可以从一个大文本文件创建一个语料库,但结果我只有一个文档。 如果此文本文件包含可用于在其中生成文档的解析器文本(例如“ZZ”),如何指示Corpus函数使用“ZZ”分隔符作为文档标识符?
E.g。
TEXTFILE:
ZZ APREPITANT (EU) Tabletten Quartalsbericht Nr. 1 Vorprojekt
Timing für EU Launch
Projektteam:
Dr. G, Dr. Gi, Dr. R, Hr. M, Fr. Braun, A. R;
Referenzprodukt:
ATC-Gruppe: (HPK: 411) EmendTM
ZZ BENDAMUSTIN (EU) - lyophil. Pulver Quartalsbericht Nr. 12 Zulassungsprojekt
Timing für EU Launch
Kristina R
Projektteam:
Dr. Britta E, Dr. H, Gieß, Holtz, Dr.F, Kristina R
Referenzprodukt: namehere (namehere)
ATC-Gruppe: Antineoplastische Mittel alkylierende (L01A)
Geplante Produkte: 25, 100 mg lyophil. Pulver (2,5mg/ml) [ggf. 200mg Sondergröße]
API Hersteller:
namehere
qualif.:02+08/'11; (Q2/'14)
API Alternative: ---
DP Entwickler:
namehere
使用此脚本corp只有一个Doc.Identifier
。
x <- read.csv(file_loc, header = FALSE)
corp <- Corpus(DataframeSource(x))
有没有办法生成语料库,其中“ZZ”识别同一语料库的两个不同文档?有没有办法生成自定义源格式,以便这可能?