我注意到DBpedia数据集上有一点问题,我想知道是否有人已经面对它,以及你如何处理它。
问题在于法语摘要在其值中包含一些噪音,对于某些日期和其他字段的更常见的字面值。
例如: William Bradley“Brad”Pitt est un acteur et producteurdecinémaaméricainéleModèle:Date àShawnee,dans l'Étatdel'Oklahoma。 Aprèsdesdébutsàlatélévision,il perceaucinémaaudébutdesannées1995grâceàsordôledevoleur dans Thelma et Louise。 Il adepuisjouédansde nombreux films cultes comme Entretien avec un vampire,Seven,L'Arméedes12 singes,Sleepers et Fight Club。布拉德皮特获得奥斯卡奖提名,奥斯卡奖提名,金球奖,以及1995年的改革活动.Il est lepremieràavoirétééludeuxfois«Homme vivant le plus sexy»par le magazine People,en 1995 et 2000。
或: Le quartier de Belleville est le 77Modèle:E quartier administratif deParissituédansle。 DanslesreprésentationsdesParisiens,le«quartier de Belleville»est plus vaste。 Recouvrant l'ancienne commune de Belleville,de part et autre de l'actuelle rue de Belleville,ilestàchevalentrele19ème,20ème,10ème,etle11èmerrondissementde la ville de Paris。
(来源:http://dbpedia.org/page/Brad_Pitt,http://dbpedia.org/page/Belleville,_Paris)
这个问题似乎只发生在法国摘要上。
有什么想法吗?