Question

我可以从一个大文本文件创建一个语料库，但结果我只有一个文档。如果此文本文件包含可用于在其中生成文档的解析器文本（例如“ZZ”），如何指示Corpus函数使用“ZZ”分隔符作为文档标识符？

E.g。

TEXTFILE：

ZZ APREPITANT (EU) Tabletten Quartalsbericht Nr. 1 Vorprojekt
Timing für EU Launch
Projektteam:
Dr. G, Dr. Gi, Dr. R, Hr. M, Fr. Braun, A. R;
Referenzprodukt:
ATC-Gruppe: (HPK: 411) EmendTM
ZZ BENDAMUSTIN (EU) - lyophil. Pulver Quartalsbericht Nr. 12 Zulassungsprojekt
Timing für EU Launch
Kristina R
Projektteam:
Dr. Britta E, Dr. H, Gieß, Holtz, Dr.F, Kristina R
Referenzprodukt: namehere (namehere)
ATC-Gruppe: Antineoplastische Mittel  alkylierende (L01A)
Geplante Produkte: 25, 100 mg lyophil. Pulver (2,5mg/ml) [ggf. 200mg Sondergröße]
API Hersteller:
namehere
qualif.:02+08/'11; (Q2/'14)
API Alternative: ---
DP Entwickler:
namehere

使用此脚本corp只有一个Doc.Identifier。

x <- read.csv(file_loc, header = FALSE)
corp <- Corpus(DataframeSource(x))

有没有办法生成语料库，其中“ZZ”识别同一语料库的两个不同文档？有没有办法生成自定义源格式，以便这可能？

在TM包中创建自己的Source

0 个答案: