B-2 – Description du projet et résultats attendus :

1. Genèse de nos recherches

1. 1. Hypertextes et dictionnaires (1997-1999)

Ce programme de recherche intitulé « Hypertextes et dictionnaires : nouveaux traitements cognitifs, nouveaux usages culturels et didactiques », retenu à l’appel d’offre « Production, validation et mise à disposition de données et d’outils linguistiques » (CNRS/SPI-SHS, 1997) et achevé en 1999, était guidé par une double préoccupation : la première appliquée à étudier ce que représente un grand corpus du type « dictionnaire » quant à ses spécificités lexicographiques et sémantiques, la seconde reconsidérant cet objet particulier en tant que système hypertexte ouvrant à des usages multiples et, dès lors, constitutif de divers produits dictionnairiques informatisés. Dans ce contexte, ont été construits à la fois :

- un modèle théorique des organisations du lexique et de leur intrication au sémantique ;

- une maquette informatisée favorisant la génération d’indexations stratégiques pour l’utilisateur lorsque celui-ci se place dans des perspectives d’appropriations cognitives et culturelles déterminées.

1.2. Le Programme PAROLE (1998-2000)

Le projet Parole avait été lancé en mai 1996 par la Commission des Communautés Européennes, à l’initiative de la DG XIII (Telecommunications, Information Market and Exploitation of Research). Ce projet Parole, achevé en 2000, regroupait quinze partenaires et concernait quatorze langues. Chaque partenaire s’engageait à constituer dans sa propre langue un corpus d’au moins 20 millions de mots, distribués ainsi : 60 % venant de journaux (14 millions) ; 20 % venant de livres (3 millions) ; 10 % venant de périodiques (1 million) ; 10 % de divers (1 million). Pas plus de 20 % de ces occurrences ne pouvaient dater d’avant 1980 !

L’enjeu était de taille : il s’agit aujourd’hui d’un des corpus les plus considérables de langue française, non seulement diversifié, mais en plus disponible aux études sans se heurter aux problèmes posés par les droits d’auteur.

2. Hypertextes numérisés et histoire des idées (2000-2006)

Les réflexions de notre équipe, très tôt, se sont donc fortement orientées vers l’étude des formes internes de la textualité électronique et sur les opérations sémantiques et cognitives que celles-ci favorisent, cela dans le contexte concret de mise en place d’une plate-forme expérimentale d’offres de ressources, de développement ou d’adaptation d’outils et de services multimédias.

C’est dans ce cadre que s’est inscrit notre programme Hypertextes numérisés et histoire des idées : la naissance d’une science moderne du vivant, naturalistes et biologistes français au 19e siècle. Ce programme scientifique a été concrétisé par le projet COLISCIENCES (Corpus de littérature scientifique) qui visait à la mise en ligne d’un grand corpus balisé dans la perspective de consultations hypertextuelles multiples.

2. 1. La construction hypertextuelle

Dans nombre d’approches, l’hypertextualité est définie par trois propriétés :

- la fragmentation du contenu : un hypertexte est un agrégat d’éléments d’information ;

- l’informatisation : le contenu d’un hypertexte est installé sur support électronique ;

- la non linéarité des lectures : les fonctionnalités du dispositif informatique permettent d’effectuer des parcours multiples dans le fonds enregistré.

Mais cette vision demande à être nuancée. Le système hypertextuel introduit une interface dans les rapports d’interprétation : entre le document et le lecteur, il glisse une couche intermédiaire de « connaissances » qui guide les approches du lecteur, mais ne constitue en aucun cas une grille de référence absolue. La structure fondamentale de l’hypertextualité est donc une structure dynamique : le réseau des connaissances qui reflète l’interprétation des documents, va orienter des parcours qui vont susciter de nouvelles interprétations, c’est-à-dire donner lieu à de nouvelles connaissances qui pourront à leur tour jouer le rôle de guides de lecture.

3. Le programme COLISCIENCES : genèse et motivations

3. 1. Genèse et développements

En 1999, devant le constat d’une quasi absence de ressources en ligne offrant des corpus francophones traitant de sciences – alors que les sites de ressources textuelles en littérature sont fort nombreux –, nous avons conçu le projet d’un COrpus de LIttérature Scientifique de langue française (Colis) – en l’occurrence, la science du vivant. Un site prototype fut élaboré, consacré à un ouvrage de Claude Bernard, l’Introduction à l’étude de la médecine expérimentale (IEME). Cette étape permit (i) de dresser l’inventaire des diverses difficultés pratiques (éditoriales et informatiques) qui accompagnent tout développement d’un projet de ce type ; (ii) de mettre en œuvre un certain nombre d’idées théoriques sur l’hypertextualité.

Des logiciels, des interfaces utilisateurs, des modes d’accès aux textes, etc., furent évalués, ce qui nous permit de pérenniser des choix technologiques précis (XML pour les textes en ligne, logiciels libres [Apache comme serveur Web, php comme langage de scripts et mySQL comme base de données] pour l’environnement informatique, etc.), grâce auxquels nous avons développé le programme COLISCIENCES.

COLISCIENCES répond à trois objectifs :

1. Editer en ligne des collections d’auteurs biologistes et naturalistes du 19e siècle, en langue française, et par là, valoriser un patrimoine historique et un moment exceptionnel de l’histoire des sciences et de la pensée ;

2. Prendre ce corpus inédit comme base de réflexion sur les questions de la constitution de corpus et de la nature de l’hypertextualité : processus, parcours, liens, lectures, navigations ;

3. Contribuer aux travaux sur l’histoire des idées dans ce contexte précis du développement et de la consolidation d’une science moderne du vivant.

Concrètement, ont été mises en ligne près de 6 000 pages empruntées à des éditions originales des textes de Claude Bernard, Étienne et Isidore Geoffroy Saint-Hilaire, Armand de Quatrefages, etc. Chaque auteur est présenté grâce à : une courte notice biographique, une bibliographie, une présentation de ses travaux et de leur portée.

Ce corpus est entièrement inter-relié, via les notions clés, en tant qu’elles sont des “ moteurs sémantiques ” permettant de suivre les usages et les transformations du vocabulaire scientifique et philosophique (à vocation cognitive), au sein des différentes représentations du vivant. (Ainsi, trente notions génériques ont été repérées, telles que, par exemple : vie, méthode expérimentale, physiologie, raisonnement, etc.) Ce ne sont donc pas seulement des textes “ bruts ” qui sont ainsi rendus disponibles, mais des parcours d'exploration et de lecture qui sont proposés au travers de dispositifs de navigation permettant idéalement :

– de trouver de la façon la plus économique en termes de temps et de “ charge mentale ” les informations souhaitées ou recherchées ;

– de “ saisir ” les idées contenues dans ces textes par d'autres moyens que les lectures linéaires impliquées par le dispositif “ livre ” habituel.

3. 2. ColiscienceS : un outil pour l’“ histoire des idées ”

Le site Colisciences met à disposition un ensemble structuré de textes-sources et de textes-commentaires. Nous privilégions le rapport permanent entre les écrits des biologistes du 19e siècle contenus dans la base textuelle et des “ aides ” à la saisie du sens, telles que le “ glossaire ” et les “ notions ”.Ainsi, nous avons réalisé un glossaire des termes scientifiques et techniques. Le lecteur peut, grâce à de courtes définitions, saisir le sens usuel et/ou circonstanciel de tel ou tel terme exigeant un éclairage spécifique. Ce qui est privilégié ici, c’est la possibilité d’une lecture circonscrite à l’intérieur du site, sans la nécessité de recourir à des dictionnaires externes. Les notions, quant à elles, sont des termes clés qui condensent la nature problématique des différentes parties d’un texte-source. Outre leur rôle particulier dans l’optique d’une hypertextualisation du corpus qui s’appuie sur elles pour en appréhender la trame conceptuelle, ces notions font également l’objet d’articles rédigés par l’équipe.

Dans la perspective d’une lecture de la portée sémantique du corpus en question, on distingue donc : i) au niveau lexical, le glossaire et ii) au niveau des idées, les “ notions ” constituées en noyaux générateurs de significations plurivoques. Une des premières “ leçons ” que l’on peut tirer de l’examen d’un corpus scientifique portant sur des auteurs et des sous-domaines variés – mais concourant à l’élaboration d’un domaine scientifique de grande ampleur et tout de même unifié – est bien de montrer que l’abord d’une science, surtout dans une perspective historique, passe par l’exploration des champs sémantiques qu’exhibe le corpus.

3.3. Le Programme COLISCIENCES : récapitulatif

Le noyau du programme consiste donc en la mise en ligne de ce grand corpus balisé dans la perspective de consultations hypertextuelles multiples. Des textes d’Etienne et Isidore Geoffroy Saint-Hilaire, Claude Bernard et d’autres sont ainsi rendus disponibles, jalonnant les édifices théoriques de la pensée biologique moderne et propices aussi bien à la réflexion épistémologique qu’à la construction de modules pédagogiques centrés sur des notions (l’hérédité, l’inné et l’acquis, etc.) ou des controverses toujours actuelles (l’évolution, la « querelle des analogues », la reconstitution des formes, les classifications, les ontologies, etc.).

Les dimensions du programme

- La dimension de l’offre : elle consiste dans cette mise à disposition d’un corpus de données originales, numérisées, balisées et indexées.

- La dimension stratégique : un certain nombre de fonctionnalités permettant de tester les différentes formes d’indexation des données (notices historiques et biographiques, bibliographies thématiques, sites complémentaires, classifications terminologique, historique, épistémologique et sémantique).

Les niveaux procéduraux

- Des niveaux manipulatoires : les formes simples qui doivent permettre des acquisitions premières (notices, définitions, descriptions, explications, illustrations).

- Des niveaux référentiels : le corpus comme outil interrogeable pour l’apprentissage de l’histoire des grandes questions des sciences du vivant (théorie de l’évolution, etc.) et l’aide à la réflexion sur des concepts de base.

- Des niveaux érudits : les lectures, annotations et commentaires critiques sur des questions établies au 19e siècle et toujours réactualisées (exemple : la problématique de « l’instinct » ou celle de « l’amour maternel » du 19e à nos jours).

4. Corpus et bibliothèques numériques

4.1. Rôle et place des corpus en linguistique^¹

Linguistique hors corpus versus linguistique de corpus

Nombre de linguistes dont les générativistes, ont fait pendant longtemps l'économie des corpus dans leur pratique scientifique. Fondamentalement cela résultait d'une interprétation stricte de la dualité saussurienne. Selon la phrase apocryphe du Cours – phrase qui traduit, on le sait aujourd'hui grâce aux travaux de Bouquet (1997, 2005), la pensée de Bally et non celle de Saussure –, « la linguistique a pour unique et véritable objet la langue envisagée en elle-même et pour elle-même » (Mayaffre, 2005). Les linguistes, pensait-on, devaient s'intéresser à la langue, au système, à la compétence linguistique. Les corpus relevaient, jugeait-on encore, d'une linguistique de la parole qui précisément n'était pas de la linguistique mais de la socio-linguistique, de la psycho-linguistique, ou encore de l'analyse de discours, de la pragmatique, de la stylistique, de la littérature.

A l'opposé, d’autres linguistes considéraient l'utilisation des corpus comme obligatoire. Il était déclaré vain de vouloir théoriser la langue : il n'y avait plus de système, mais seulement des réalisations multiples, variées, imprévisibles qu'il fallait compiler dans des macro-corpus. Cette tendance est particulièrement représentée en sémantique. Les mots ont peut-être une signification en langue mais ils n'ont de sens et de valeur qu'en contexte. C'est le postulat d'une entreprise comme Frantext ou comme le Trésor de la Langue Française qui en est issu. Le TLF, dictionnaire original, ne définit pas les mots à partir d'un sens déjà-là ou construit de manière logique (par l'étymologie), il entend enregistrer des significations d’usage à partir d'exemples effectivement trouvés dans la littérature française des origines modernes à nos jours. (Mayaffre, 2005).

Face à ces positions opposées, le temps est venu d'une mise au point, car désormais tout le monde utilise le terme corpus et se revendique de lui : « corpus textuel », « corpus sémantique », « corpus électronique », etc. Cette mise au point est nécessaire car le risque existe que nous utilisions tous désormais le terme dans des acceptions bien différentes. Le risque existe aussi que la linguistique de corpus telle qu'elle se définit depuis quelques années dans le monde anglo-saxon ou en France (Habert, Nazarenko et Salem, 1997), se dilue aujourd'hui et se trouve phagocytée par une linguistique générale qui n'a pas, au départ, les mêmes préoccupations.

Le point de vue de la linguistique de corpus

D'évidence en effet, il n'existe pas en linguistique un seul type de corpus mais plusieurs. De manière hiérarchique, on peut distinguer trois grands niveaux de corpus :

-Les corpus lexicographiques qui peuvent non seulement être des corpus clos mais des corpus finis.

-Les corpus phrastiques de grammairiens ou de syntacticiens dont une des particularités est de recueillir des exemples non pas attestés mais forgés.

-Enfin les corpus textuels qui ne peuvent aspirer ni à l'exhaustivité ni même à la représentativité et qui concentrent toujours des données attestées puisqu'on ne saurait fabriquer artificiellement un texte pour prétendre en appréhender le sens.

Derrière ces types de corpus se profile la question polémique de l'objet pertinent de la linguistique. Il est évident, qu'au départ, la linguistique de corpus – au sens de Habert et al. (1997) – considère d'abord les corpus textuels. Le sens naît du texte (et, plus loin encore, du con-texte). Dès lors, sans doute peut-on définir le corpus comme le lieu linguistique où se construit et s'appréhende le sens des textes (Mayaffre, 2005b).

De manière schématique, la question est de savoir si le corpus doit être considéré comme un observatoire de quelque chose de transcendant ou bien comme un observé dynamique. Savoir si le corpus sert à révéler un sens qui serait pré-existant ou, fondamentalement, à le construire. En d’autres termes, la question est de savoir si l'on se fait une conception documentaire du corpus (recueil d'exemples, base de données, échantillons de langue) ou une conception heuristique. Bref, pour certains, le corpus est un outil qui permet de rendre compte d'une réalité transcendante (la Langue ?), d’illustrer une connaissance a priori, de "découvrir" un savoir déjà su. Pour d'autres, le corpus est un objet vivant de recherche et de connaissance, dont la description débouchera sur des modèles sémantiques à inventer.

En résumé, les corpus en tant que « médiation » entre le chercheur et le fait linguistique sont un lieu de confrontation exemplaire entre la théorie et l'empirie.

4. 2. Le corpus entre données, analyse et théorie^²

Le corpus du linguiste

Lorsqu'on travaille avec un corpus-échantillon, on délimite les faits à étudier puis on procède à leur analyse. Cela implique deux conséquences : la clôture du corpus relève de la responsabilité du chercheur, et la représentativité du corpus – dont dépend la validité de l'analyse – est exclusivement du ressort du chercheur. Le corpus apparaît comme un objet construit. On discerne alors le double glissement de la notion « générique » de corpus :

1 – ensemble de faits présentant une certaine homogénéité,

2 – ensemble de faits pertinents,

3 – ensemble construit de faits.

« De la notion de « collection d'objets » réunis parce qu'ayant en partage, au moins une ou plusieurs propriétés, on passe à à un ensemble de données filtrées, puis à un ensemble de données construit, c'est-à-dire complété ou remodelé de manière telle qu'il soit susceptible d'attester les possibles que l'analyse de l'ensemble précédent a suggérés ». Ce qu’il faut retenir, c’est que le corpus n'est pas un simple sous-ensemble des données de la réalité, mais un échantillon déjà travaillé. Il reste que l'analyse ne vaut que ce que vaut le corpus (Dalbera, 2002).

Le corpus : échantillon construit

Le linguiste qui « fait du terrain », vit en permanence les métamorphoses de son corpus. Le dialectotologue, en face d'un idiome nouveau, qu'il découvre dans le cadre d'une enquête, recueille dans un premier temps du « tout venant », ne sachant évidemment pas à l'avance quel type de traits caractérise le parler dont il consigne pour la première fois les manifestations. Il procède ensuite, avant de revenir au terrain, à une analyse des faits engrangés et se trouve confronté à un certain nombre de difficultés (séquences phoniques inhabituelles pour lui et pour lesquelles il ne dispose que d'un nombre insuffisant d'exemples, mode de fonctionnement des enchaînements (liaison, élision) pour lequel les séquences enregistrées n'illustrent pas tous les cas de figure possibles, opposition phonématiques fugitives ou douteuses, corrélations morphologiques incomplètes, etc. Ce sont ces points qui vont aiguiller la suite de l'enquête : les bonnes questions à poser aux témoins. Les résultats (provisoires) de l'analyse conditionnent pour partie les questions et configurent le futur corpus représentatif. C'est de proche en proche que le corpus s'élabore, d'hypothèses trop hâtives balayées par les faits en propositions plus subtiles qui cadrent mieux les données, de retouches en retouches et en vérification (indirecte et implicite, évidemment) auprès des témoins. La trame structurelle du parler se dessine ainsi progressivement en même temps que le corpus se construit. Le corpus est indissociable de l'analyse.

La clôture du corpus partie intégrante de la théorie

Le point à souligner ici, est que la construction du corpus servant d'assise à l'étude lexicale conduit non seulement à opérer des sélections dans les données à disposition mais surtout à élaborer un véritable modèle pour la description lexicale, modèle qui fait éclater les frontières ordinairement respectées dans le cadre d'une étude ponctuelle linguistique. Le corpus devient là indissociable de la théorie.

Le corpus du linguiste est donc a priori l'ensemble des faits sur la base desquels celui-ci entend conduire son analyse. Ce corpus est, au premier chef, de l'ordre des données brutes : il consiste en un certain nombre d'unités linguistiques recueillies selon divers modes et rassemblées. L'extrapolation qu'il convient de faire pour étendre les résultats de l'analyse de l'échantillon à la langue impose que cet échantillon ait un caractère représentatif. La clôture du corpus ne peut plus être aléatoire ni seulement d'ordre quantitatif ; des contraintes qualitatives viennent s'ajouter, le corpus est alors de l'ordre des données pertinentes. Par ailleurs la décision de garder le corpus ouvert a pour corollaire l'implication plus franche du linguiste dans le modelage de celui-ci ; le corpus est ainsi l’ensemble des données construites. (Dalbera, 2002). Cela semble particulièrement vrai dans le cas des langages spécialisés tel celui de notre corpus.

5. 1. Approches de la langue spécialisée

La définition générale donnée sur le Web, à propos de « langue spécialisée » est la suivante : « Système de communication verbale et écrite observé à travers l'usage particulier qu'en fait une communauté de spécialistes dans un domaine de connaissances déterminé. Aussi appelée langue de spécialité. »^³ Pour Pierre Lerat, "[une langue spécialisée] utilise des dénominations spécialisées (les termes), y compris des symboles non linguistiques, dans des énoncés mobilisant les ressources ordinaires d’une langue donnée. On peut donc la définir comme l’usage d’une langue naturelle pour rendre compte techniquement de connaissances spécialisées." (Lerat, 1995:21). Les vocabulaires spécialisés constituent des faits de langue obéissant à des règles spécifiques et pour la description desquels une méthodologie appropriée est requise.

Ceci étant posé, la constitution d’un glossaire terminologique suppose que le terminologue réalise un certain nombre d'analyses. Mais, les résultats d’une analyse des énoncés réalisée en vue d’identifier des unités terminologiques peuvent être incertains. En effet, des mécanismes linguistiques particuliers tendent à réduire le degré de certitude des analyses terminologiques. Ainsi, de l’ellipse, de l’anaphore, des lacunes dénominatives ainsi que les inadéquations fonctionnelles des unités terminologiques, qui appartiennent à la seconde (Boutayeb, 1995).

L’ellipse

Dans le type d’ellipse qui intéressait Boutayeb, travaillant sur le vocabulaire de l’informatique, on observe un effacement d’un des mots constituant une unité terminologique complexe. C’est ainsi que l’on relève à côté du syntagme terminologique compatible PC la forme elliptique compatible, dans un emploi substantival, ainsi que la forme siglée PC. Ces formes elliptiques tendent à s’autonomiser et constituent des formes concurrentes des termes dont elles procèdent.

L’anaphore

Un autre mécanisme important est l’anaphore. Elle est définie par Pierre Lerat (Lerat, 1995:80) comme le "lien de référence à un fragment de discours antérieur". Dans ce mécanisme de reprise anaphorique, les unités terminologiques sont susceptibles d’être tronquées ou d’être effacées de l’énoncé dans lesquel elles sont évoquées. Ainsi, dans l’exemple suivant, où il est question du scanner à plat. Le thème de la deuxième phrase (commençant par "Ce type de scanner...") est repris de la phrase précédente. Cependant, l’auteur emploie un autre terme (scanner) qui se trouve être le générique de scanner à plat. Exemple : Il en va tout autrement du scanner à plat. Ici le scanner agit comme un photocopieur. Ce type de scanner convient en particulier à l'usage professionnel. Il produit des résultats d'excellente qualité. (Donker C., Tetling K., Krughöfer H., Votre Premier PC, Micro Applications, 1995, p. 60).

Les lacunes dénominatives

Celles-ci apparaissent en général à l’issue de la constitution de la base de données terminologiques, à travers la confrontation des données provenant de différentes langues. Ainsi, on peut observer que le catalan ne fournit pas de terme pour le concept dénommé en français micromisation et en anglais downsizing.

Les inadéquations fonctionnelles des unités terminologiques

Un autre dysfonctionnement de la langue apparaît à l’usage, c’est-à-dire, lorsque les usagers de la langue emploient les unités terminologiques recensées dans le dictionnaire. Ce seront en général les usagers de la langue qui noteront la difficulté, voire l’impossibilité d’employer tel terme dans une situation réelle de communication. Ainsi, en français, le calque branchez et ça marche de l’expression Plug and Play n’a pas les mêmes propriétés distributionnelles que son équivalent emprunté de l’anglais.

De ce rappel, il convient de tirer une conséquence pratique : un dictionnaire terminologique ayant la prétention de servir d’outil au service des communications spécialisées doit comporter, outre les unités terminologiques, diverses données associées, de nature linguistique, conceptuelle ou documentaire. (Boutayeb, 1995)

Foisonnement terminologique

On constate ainsi tout un foisonnement terminologique caractéristique des domaines novateurs, en relation avec l’apparition de nouveaux concepts (Boutayeb 1995). Il est notable que les concepts peuvent être dénommés, au sein d’une même langue, de diverses façons par des formes concurrentes. Ces variantes reflètent la capacité de chaque langue de dénommer le réel par des moyens qui lui sont propres.

Statut des termes

Parmi les termes que l’étude du vocabulaire de l’informatique aura ainsi permis de recenser, il convient d’observer des différences de statut. En effet, dans la situation de foisonnement terminologique qui vient d’être d’évoquée, différentes formes concurrentes correspondant au même concept peuvent être données. Pour autant, toutes ne sont pas placées sur le même plan. Ainsi, la prise en compte d’un certain nombre de paramètres fait que deux formes concurrentes ne sont pas simplement interchangeables. Quelle attitude alors adopter ? L’attitude descriptive convient sans doute au linguiste, qui se borne à rendre compte du fonctionnement de la langue. Le terminologue, quant à lui, doit répondre à des exigences plus pratiques, dès lors qu’il participe à l’élaboration d’instruments de communication spécialisée. En effet, il semble souhaitable que la personne qui consulte un dictionnaire soit guidée dans le choix d’un terme. Tout en se réservant le choix de faire apparaître les formes concurrentes en regard du terme préférentiel, le terminologue indiquera la forme qu’il juge préférentielle. Un tel jugement doit être fondé. Il apparaît rapidement que le choix de recommander une forme plutôt qu’une autre donne lieu à une question plus proprement linguistique, relative aux critères à appliquer afin de sélectionner la forme préférentielle.

En effet, la recommandation implique tout d’abord un classement des différentes formes concurrentes et ensuite une exclusion de certaines formes concurrentes au profit d’une forme qui sera présentée comme la forme préférentielle.

Les formes concurrentes : critères de sélection

Le traitement des formes concurrentes constitue une des tâches que le terminologue est conduit à réaliser, lors de l’analyse des données terminologiques. Au même titre que les autres tâches —caractérisation des concepts, élaboration de la définition, mise en relation des concepts, attribution du domaine, etc.— la sélection d’un terme préférentiel parmi plusieurs formes concurrentes doit donc aboutir à des décisions correspondant à diverses situations. Celles-ci consistent, généralement, à faire le tri entre des informations contradictoires. Une approche peut ainsi être envisagée, qui présente l'avantage d'être relativement objective. En revanche, les limites de cette solution résident dans la lourdeur du dispositif à mettre en œuvre et dans la difficulté qu'il y a à choisir entre différents critères (lorsqu'il s'agit de déterminer un terme préférentiel parmi plusieurs formes concurrentes). Ces références linguistiques doivent être comprises comme un instrument d'aide à la décision. Ce seront :

1) La régularité du modèle de formation et la productivité, qui rendent compte des rapports que les unités terminologiques entretiennent avec leurs corrélats, dans le système de la langue ;

2) La productivité. La productivité permet d’estimer les potentialités de formation de nouvelles unités linguistiques (corrélats dérivationnels et syntagmatiques) sur la base d’un formant ou d’une forme existant préalablement. Ainsi, dessineur s’inscrit dans une série dérivationnelle comportant dessin et dessiner.

3) L’économie linguistique est un autre critère qui rend compte des conditions d’emploi des unités terminologiques par les usagers de la langue. Les critères de fréquence et de généralisation de l’emploi renseignent sur les rapports entre les unités terminologiques et le corpus. Le premier critère permet d’identifier les hapax, dont on ne relève qu’une occurrence dans un corpus donné. Quant au second critère, qui pondère le critère de fréquence, il permet d’identifier les idiotismes, termes propres à un locuteur ou à un groupe de locuteurs.

Ces différents critères de classement permettent d’établir un classement global des formes en concurrence correspondant au même concept. Ce classement a valeur indicative, dans la mesure où le poids relatif de chaque critère ainsi que les modes de calcul sont différents.

Conclusions

Les discours spécialisés sont donc le lieu dans lequel peut être observée la créativité terminologique. On a pu ainsi voir, à partir de l’exemple du vocabulaire de l’informatique, que cette créativité faisait appel à un certain nombre de mécanismes relatifs aux stratégies d’échanges entre langues, à l’intégration linguistique des emprunts, à la constitution de séries dérivationnelles, à l’utilisation de formants, au foisonnement terminologique, ainsi qu’au statut des termes. La polysémie de ceux-ci est encore un facteur important.

5.2. La polysémie dans les discours spécialisés

Cécile Fabre, Benoît Habert et Dominique Labbé^⁴ ont étudié les regroupements obtenus à partir de deux corpus, l'un spécialisé, l'autre proche de la langue générale. L’objectif était de vérifier si le fonctionnement syntaxique des mots est un indice fiable de leur fonctionnement sémantique, et ce dans les deux types de corpus.

De nombreuses recherches en effet, depuis une dizaine d'années, ont été consacrées à l'acquisition automatique de classes sémantiques à partir de corpus (cf [Grefenstette, 1994a]). Les regroupements ainsi opérés et leurs points de contact renseignent sur le degré de polysémie des mots examinés, ainsi que, plus généralement, sur l'organisation sémantique du domaine étudié. L'approche dominante peut être divisée en trois étapes, selon [Grefenstette, 1994b] : 1) extraction des cooccurrents d'un mot, 2) association à chaque mot de l'ensemble de ses cooccurrents et mise en évidence de la proximité/distance des mots deux à deux en fonction des cooccurrents qu'ils partagent, 3) découpage en classes en fonction des proximités entre mots. A chaque étape, les techniques mises en oeuvre varient. Dans le logiciel zellig, on utilise un contexte syntaxique pour choisir les cooccurrents. Les mots sont ensuite rassemblés à partir d'un seuil fixé de contextes partagés

5.2.1. Deux corpus : langue générale et langue spécialisée

Menelas : le langage médical des maladies coronariennes

L'expérience utilise en premier lieu le corpus rassemblé dans le cadre du projet Menelas [Zweigenbaum, 1994] de compréhension de comptes rendus d'hospitalisation dans le domaine des maladies coronariennes. Ce corpus se compose surtout de comptes rendus d'hospitalisation, ainsi que de lettres de médecins hospitaliers aux médecins traitants. Il contient 84 839 mots (occurrences) pour 6 191 formes différentes.

Mitterrand1 : les interventions radio-télévisées du premier septennat

Le second corpus a été rassemblé dans le cadre d'une étude du discours politique français contemporain [Labbé, 1990]. Il comporte l'ensemble des prestations radio-télévisées de F. Mitterrand au cours de son premier septennat : allocutions, entretiens, conférences de presse, soit 68 textes. Le corpus (désormais mitterrand1) est entièrement lemmatisé : à chaque forme graphique on associe un lemme (son entrée dans les dictionnaires), et sa catégorie grammaticale. Le corpus comporte 305 124 occurrences, 14 362 formes graphiques et 7 700 lemmes différents.

Menelas constitue un corpus de langue spécialisée, à la fois par sa thématique et par les genres spécifiques qui le structurent: ils correspondent à des situations de communication où le récepteur, le plus souvent unique, partage la culture du locuteur. Du fait de sa variété thématique et de sa portée (le message présidentiel a pour destinataire l'ensemble des Français), le corpus mitterrand1 appartient plutôt à la langue générale même s'il est caractéristique du discours politique français contemporain.

Regroupements à partir de dépendances syntaxiques. Cette normalisation permet de mettre au jour les régularités que masquent les groupes nominaux complexes extraits. Par exemple, pour la séquence le prochain sommet des grands pays industriels, zellig fournit quatre arbres élémentaires à partir de l'arbre d'analyse complet. Les voici, accompagnés de leur transcription syntaxique :

a. prochain sommet [SN [SADJ [ADJ prochain]] [SN [N sommet]]]

b. sommet des pays [SN [SN [N sommet]] [SP [Prép des] [SN [N pays]]]]

c. [N pays]] [SADJ [ADJ industriels]]]

On obtient donc à partir de ce groupe nominal complexe une série de dépendances élémentaires binaires, c'est-à-dire entre deux mots pleins (nom ou adjectif). Par exemple, dans mitterrand1, les noms peuple et monde partagent avec pays le contexte c. (noms qualifiés par l'adjectif antéposé grand) : on trouve 9 fois le contexte nombre de pays (noeud gauche, numéro <0>) et 1 fois (c'est la valeur par défaut) le contexte ensemble de nations (noeud droit, numéro <2>). zellig permet également de visualiser les contextes propres à chaque noeud (qu'il ne partage avec aucun noeud du graphe).

5.2.2. Présentation globale des regroupements obtenus

Menelas

Sur les données produites par zellig, on observe une répartition similaire des résultats : une première composante pléthorique qui semble regrouper plusieurs catégories sémantiques en intersection, suivie d'une série de composantes beaucoup plus petites, mais également plus homogènes.

La première composante met en évidence des lemmes "attracteurs", qui partagent des contextes avec de nombreux autres lemmes. C'est le cas des mots lésion, sténose, artère, iva. Autour de ces attracteurs, on remarque des zones denses, enchevêtrées, faisant apparaître les groupes {lésion sténose atteinte resténose maladie pontage angioplastie artère réseau droite} et {artère réseau tronc iva branche segment interventriculaire diagonale}. Enfin, on note des groupes de noeuds dont le rattachement au reste de la composante est ténu.

L'interprétation de cette première composante déclenche deux types de constats :

- la gravité d'un dysfonctionnement : {minime modéré net significatif important}.

- la localisation au sein du myocarde ou par rapport aux affections qui le touchent : {limité antérieur postérieur latéral inférieur} où limité joue le rôle d'intrus.

Il est intéressant de voir par exemple que douleur est quantifié, au même titre que des mots qui le sont plus habituellement (jour, mois, semaine), Une formation particulière est celle des composantes à trois noeuds où un noeud joue le rôle d'intermédiaire. C'est le cas, par exemple, de {mauvais bon beau}. On y trouve des liens d'hyponymie, le rapprochement de synonymes et d'antonymes, ou encore l'articulation entre deux fonctionnements d'un même mot. Ces structures renseignent aussi sur des comportements spécifiques de mots courants. Dans ce type de texte, beau fonctionne comme un diagnostic positif sur les possibilités d'évolution d'un site corporel. Et hors connaissance du domaine, on aurait du mal à prédire les noms qu'il peut effectivement modifier : calibre branche lit. Ce qui semble d'ailleurs qualifié ici, ce n'est pas la partie du corps concernée, mais sa capacité à remplir sa fonction typique : une belle branche d'artère est une branche qui permet au sang de circuler au mieux.

4.2. mitterrand1

La première composante, obtenue regroupe à la fois des noms et des adjectifs, le mot politique par son double fonctionnement assurant la transition entre les deux groupes.

Trois ensembles se dégagent :

- un vocabulaire géo-politique des pays et des institutions : {gouvernement ministre monde France pays Europe peuple région Français}

- des adjectifs " étiquetant " des niveaux, des strates de la réalité : {économique social politique industriel national français européen américain}

- une série de noms très généraux centrés autour du mot politique et caractérisant ses modes d'application (conditions, effets) : {plan décision moyen situation problème politique affaire}.

5. Evaluation

L'interprétation des regroupements produits par zellig aboutit pour les deux corpus à délimiter des ensembles plus ou moins facilement "dénommables". Pour l'étude de la polysémie éventuelle, les noms qui figurent à l'articulation de plusieurs ensembles fournissent un point d'observation privilégié.

Univocité conceptuelle pour Menelas

Si on prend pour Menelas sténose, probablement la forme qui dans la première composante possède le plus de "voisins" immédiats et qui donc, vu la variété de ces associations, semble la plus susceptible de polysémie. Une sténose se caractérise par son aspect -- la longueur et le diamètre, notamment - sténose a 70% (P1), par son degré de gravité : sténose serrée (P2) et par sa localisation, en particulier sur une artère ou une partie d'artère : sténose circonflexe, sténose de tronc (P3). On constate également qu'une sténose fait l'objet d'un acte thérapeutique (P4) et qu'elle peut être considérée comme un processus : apparition de sténose (P5). Dans le cas du corpus Menelas, on observe donc un comportement monosémique des mots, même si un même mot peut partager des facettes différentes avec ses voisins : le graphe met alors en évidence les différentes composantes du sens, c'est-à-dire les différents éléments qui entrent dans la compréhension du concept.

Polysémie massive pour mitterrand1

Les regroupements formés à partir du corpus Menelas peuvent être mis en relation avec les classes de concepts du domaine [Bouaud et al., 1997]. Dans le cas de mitterrand1, l'accès à la catégorisation semble plus problématique, dans la mesure où les classes qui se dessinent constituent des ensembles thématiques vastes, souvent hétérogènes, ou très généraux. Si l'objectif d'induction de classes conceptuelles, qui s'est avéré fructueux dans le cas du corpus technique, semble moins adapté au traitement du corpus mitterrand1, que peut apporter le logiciel pour l'étude d'un corpus plus proche de la langue générale, et caractérisé par une grande polysémie des noeuds du graphe ?

L'observation des sorties produites sur mitterrand1, pour les noms et les adjectifs, fait apparaître quelques classes sémantiques que l'on peut sans difficulté étiqueter :

{gouvernement parti majorité opposition} : instances politiques

{homme gens pays} : acteurs

{France pays Europe monde} : géographie

{européen national français} : géographie

{industriel économique social militaire} : champ d'activité

En outre, les contextes partagés et les contextes propres à chacun des mots permettent de préciser les caractéristiques de chaque noeud. Par exemple, européen et français partagent : crise ~, défense ~ , marché ~, production ~, société ~, alors que français possède en propre : département ~, délégation ~, jeunesse ~, contingent ~. Cependant, cette tentative de catégorisation, qui révèle des thématiques banales du discours politique, ne résiste pas toujours à un examen plus attentif des contextes. Par exemple, le rapport entre France et monde (rapport d'opposition) est différent du rapport entre monde et pays à cause de l'homographie entre le singulier et le pluriel. Ainsi, l'expression les pays arabes est synonyme de : le monde arabe, comme le pays l'est de la France, alors que cette dernière est en opposition à monde (notamment dans l'expression la France et le reste du monde). Cet exemple montre que les techniques actuelles d'extraction enregistrent des relations spatiales deux à deux qui, en langue générale, ne définissent pas toujours des classes sémantiques homogènes.

D'autres modes de caractérisation du sens

Les résultats obtenus sur le corpus mitterrand1 ont donc mis au jour une polysémie massive des principaux termes. Cela rend nécessaire l'invention de nouveaux modes d'analyse pour le vocabulaire général. Dans cette perspective, deux points semblent fondamentaux : la structuration sémantique des mots polysémiques et les associations sémantiques non réductibles à une relation lexicale traditionnelle.

En premier lieu, il s'agit de repérer les sphères d'influence des mots en s'appuyant sur les cliques, mais aussi en effectuant des retours au texte à l'aide des contextes. Plus largement, l'examen attentif du contexte permet de résoudre bien des synonymies ou les hyperonymies apparentes, dissipant la sensation de flou et de foisonnement qui se dégage d'un premier examen des graphes. Prenons pour exemple, le mot politique qui est certainement le plus "foisonnant". Chez Mitterrand, la politique, employée sans épithète, est toujours l'affaire des Français alors que, lorsqu'il traite de la politique économique, il n'emploie pas le substantif Français mais : salariés, chefs d'entreprise, commerçants, agriculteurs. D'où la nécessité de considérer que politique ne constitue pas un seul mot mais bien deux voire plus. La polysémie des principaux mots du lexique obligerait donc à éclater les noeuds des graphes en plusieurs champs. Si l'on examine le mot politique déjà cité, quatre cliques définissent apparemment trois champs sémantiques (les lieux, les thèmes, les objectifs) :

Cependant, à l'intérieur de ces vastes champs sémantiques, les variations de sens peuvent être importantes, ce qui oblige à opérer à nouveau d'autres partitions. Par exemple le vocabulaire de la politique économique (bataille, crise, décision, force, guerre, inégalité, indépendance, pouvoir, succès) est nettement plus tendu et combatif que le vocabulaire de la politique sociale (choc, inégalité, harmonie, problème, réalité, vie), ce dernier étant apparemment plus de l'ordre de la description que de l'action. De même, la géographie se confond souvent avec la thématique. Par exemple, chez Mitterrand politique européenne ne désigne pas l'action conduite au niveau de la Communauté européenne, voire du continent entier, mais toujours la politique européenne de la France. Si la catégorisation conceptuelle semble décevante pour caractériser finement le discours général, les groupements permettent par contre de mettre au jours des correspondances plus subtiles entre les mots, en signalant des sèmes partagés.

Conclusion

Un corpus de langue générale n'offre pas la même organisation sémantique qu'un corpus de langue spécialisée dans la mesure où les délimitations entre classes sémantiques en fonction des contextes partagés s'avèrent moins nette et les possibilités de catégorisation sémantiques plus limitées. A l'inverse, d'autres phénomènes - comme la polysémie, l'interpénétration de plusieurs champs lexicaux, les glissements de sens - constituent probablement des entrées plus pertinentes pour l'analyse d'un corpus de cette nature. Cette expérience tend à montrer qu'en langue spécialisée, il est possible de mettre en oeuvre une sémantique "conceptuelle" (classement des mots par concepts) alors que l'analyse d'un corpus en langue générale appelle également une sémantique "interprétative" permettant de rendre compte des glissements sémantiques en fonction des thèmes ainsi que des liens plus ténus entre les mots autour de sèmes communs. Elle vérifie également le fait qu'un langage spécialisé vise à décrire une classe limitée de phénomènes avec des mots relativement univoques, alors que le vocabulaire général vise à communiquer un nombre illimité d'expériences dans des situations imprévisibles et faiblement codifiées.

6.1. Qu’est-ce qu’une bibliothèque numérique?^⁵

Les bibliothèques numériques vivent une sorte d’enfance de l’art, illustrée par les succès rencontrés pendant une décennie de recherche et de développement. Une liste incomplète engloberait déjà Google, le Handle System®, le Dublin Core, ou encore l’OAI-PMH (protocole pour la collecte des métadonnées créé par l’Initiative des Archives Ouvertes). Ces réalisations sont à mettre en relation avec l’explosion généralisée du web. Elles tendent vers cette vision de la bibliothèque numérique comme « accès universel au savoir humain » exprimée dans le rapport du President Information Technology Advisory Committee en 2001.

Cependant, l’objectif visant à disposer d’identifiants universels et pérennes n’est toujours pas atteint .

L’adoption répandue du Dublin Core et de l’OAI-PMH semble répondre aux objectifs initiaux d’une description des ressources qui soit interopérable. Pourtant, des problèmes demeurent liés à la qualité des métadonnées. Face aux volumes croissants d’information stockée dans des entrepôts institutionnels, il manque toujours des techniques normalisées pour préserver cette information.

Ces inconvénients techniques se situent dans un contexte que certains ont caractérisé comme la « google-isation » des bibliothèques numériques et de l’information en général. « Google-isation » a plusieurs sens. Ici, il réfère à l’idée fausse selon laquelle Google représente l’apothéose de l’information numérique et que les problèmes restant dans ce domaine ont été résolus - ou vont l’être. Il existe surtout une croyance selon laquelle une bibliothèque numérique ne concerne que la recherche d’information (« est-ce que je peux la trouver ? ») et l’accès (« est-ce que je peux l’obtenir ? »). Ces fonctions sont essentielles sans doute, mais elles ne sont que la partie d’un environnement informationnel. Les bibliothèques traditionnelles sont plus que des entrepôts bien organisés de livres, de périodiques, etc. Elles sont par nature des lieux où des personnes se rencontrent pour accéder à un savoir qu’elles partagent et échangent. Les ressources que les bibliothèques sélectionnent et les services qu’elles offrent devraient refléter l’identité des communautés qu’elles servent.

Comme le suggère Borgman (2003), les bibliothèques numériques devraient non seulement ressembler aux bibliothèques traditionnelles mais encore aller plus loin qu’elles. Elles ne doivent pas se limiter à de simples moteurs de recherche. Comme toutes les bibliothèques, il faut qu’elles procèdent à une sélection des ressources qui répondent aux critères de leur mission. Il est également nécessaire qu’elles fournissent des services qui facilitent l’utilisation des ressources par la communauté ciblée. Mais, libérées des contraintes physiques d’espace et de support, les bibliothèques numériques peuvent mieux s’adapter aux communautés qu’elles servent. Elles doivent être collaboratives, en permettant aux utilisateurs d’apporter du savoir, soit de façon active par des annotations, des comptes rendus de lecture etc., soit de façon passive au travers de leurs profils d’utilisateurs. En outre, il faudrait qu’elles soient contextuelles, illustrant ainsi le réseau extensible des relations et des couches de savoir qui se tisse autour des ressources sélectionnées.

Il s’agit de proposer un modèle informationnel pour les bibliothèques numériques qui irait délibérément "au-delà de la recherche et de l’accès", sans pour autant ignorer ces fonctions de base, et qui faciliterait la création d’environnements de savoir collaboratifs et contextuels. Ce modèle est un réseau d’information superposé (information network overlay) qui représente la bibliothèque numérique sous la forme d’un graphe. Ce graphe comporte des noeuds typés, qui correspondent aux unités d’information (documents, données, services, acteurs) au sein de la bibliothèque et des arêtes représentant les relations contextuelles qui se nouent entre ces unités. Ce modèle informationnel incorpore de l’information locale et distribuée intégrée aux web services, autorisant la création de documents enrichis (par ex., des objets d’apprentissage, des publications pour l’e-science, etc.). Il exprime les relations complexes entre les objets d’information, les acteurs, les services et la méta-information (comme les ontologies), et représente ainsi les ressources dans leur contexte, plutôt que comme le résultat d’un accès web isolé. Il facilite les pratiques collaboratives, fermant ainsi la boucle entre les utilisateurs-consommateurs et les utilisateurs-contributeurs. Ces travaux se situent dans le cadre du projet de la National Science Digital Library (NDSL).

6.2. Construire une bibliothèque numérique avec un entrepôt de métadonnées

L’idée d’une NSDL est née en 1998 au cours d’un atelier financé par la National Science Foundation (NSF). Les premiers travaux techniques ont abouti à une architecture de données ayant ces trois fonctions de base : sélectionner des ressources web, les interroger transversalement et en faciliter l’accès. Le paradigme architectural pour réaliser ces trois fonctions est essentiellement le catalogue collectif et un entrepôt de métadonnées [EM] en Dublin Core. Ce dernier correspond aux ressources développées et gérées par les projets de collections de la NSDL et par d’autres organismes participants. L’EM est implémenté sous la forme d’une base de données relationnelle Oracle™, dans laquelle les notices de métadonnées individuelles sont stockées dans des séries de tables.

La fonction « recherche » utilise le système d’indexation en texte intégral Lucene pour indexer à la fois les métadonnées collectées décrivant la ressource et le contenu textuel de la première page HTML ainsi référencée. La fonction « archivage » utilise le Storage Resource Broker développé par le San Diego Supercomputing Center. Elle parcourt chaque mois le web à la recherche de toutes les ressources numériques identifiées dans les notices de métadonnées collectées à partir des EM. La fonction « archivage » identifie une collection de pages reliées entre elles, considérée comme la plus représentative de la ressource et effectue une capture d’archive de ces pages.

Du point de vue de l’utilisateur, les ressources dans le catalogue de la NSDL et les services sous-jacents sont disponibles par le biais d’un portail central disponible à <http://www.nsdl.org>. Celui-ci sera bientôt complété par des portails spécifiques à des communautés éducatives et soutenus par le programme NSDL Pathways.

Le portail central de la NSDL et son architecture fondée sur des entrepôts de métadonnées ont été déployés en décembre 2003. En deux ans, la collection s’est enrichie jusqu’à atteindre plus de 1,1 millions de ressources, avec des notices de métadonnées collectées par plus de 80 fournisseurs de données OAI-PMH.

Utilité de l’entrepôt de métadonnées

Les bibliothèques numériques ont une réelle valeur pour le monde de l’enseignement car elles offrent l’accès en ligne à des ressources primaires et des moyens de les utiliser. Mais, pour être vraiment efficaces en tant qu’outils didactiques, elles ne doivent pas se limiter au seul accès à des ressources de qualité. Marshall constate ainsi que les bibliothèques numériques doivent être plus que des entrepôts et accompagner la totalité du cycle de vie des données, de l’information, et de la construction du savoir en général. Wiley utilise la notion d’objets d’apprentissage pour indiquer une collection d’informations, qui comprend non seulement une ou plusieurs ressources primaires, mais aussi le contexte pédagogique dynamique de cette information. Ce contexte inclut des informations culturelles et sociales ; les objectifs pédagogiques, la nature des systèmes éducatifs des apprenants ; les capacités des apprenants, leurs profils individuels et leurs connaissances antérieures. Le contexte informationnel reflète la diversité des publics desservis et les différences dans la façon qu’ont ces publics d’utiliser l’information.

Permettre aux utilisateurs de personnaliser les entités

A l’origine, les bibliothèques numériques ont eu recours à la notion d’objets numériques, qui sont des paquets d’information avec de multiples diffusions disponibles par le biais de demandes de service. La plupart des systèmes de bibliothèques numériques modernes implémentent cette fonctionnalité en utilisant des standards comme les conteneurs d’objets complexes qui encapsulent les flux de données et de métadonnées associées à un objet numérique. Une demande de service peut alors inclure un paramètre qui spécifie la nature de la diffusion demandée - par exemple, une requête pour une diffusion en PDF d’un document scientifique.

Dans une architecture orientée "services", ces diffusions peuvent être produites aussi bien sous une forme dynamique que statique. Par exemple, plutôt que de stocker une image en plusieurs formats et résolutions, il est possible de répondre à la requête d’un utilisateur (par ex., 300 dpi, jpeg) en utilisant une seule forme d’archive (TIFF) qui sera traitée par un web service de manipulation d’images. Cette fonctionnalité est attrayante dans une bibliothèque numérique à vocation éducative où la personnalisation du contenu, en fonction de l’utilisateur (par ex., la langue) est souhaitable. C’est pourquoi le modèle informationnel doit modéliser les services parallèlement au texte, aux données, aux images et à toute autre information et doit caractériser les interactions de ces services avec les autres unités d’information.

Le Réseau d’Information Superposé (RIS)

On a proposé un modèle informationnel sous forme de graphe, avec des arêtes reliées sémantiquement et des noeuds qui soient typés de façon souple et compatible avec les web services. On utilisera la notion de réseau d’information superposé (RIS) pour représenter ce modèle. Les concepts qui sous-tendent le RIS sont structurés par couches :

- les ressources primaires ou données brutes sélectionnées par la bibliothèque figurent au niveau inférieur. Ces matériaux bruts consistent également en ensembles de données, des agents et organismes qui contribuent à la bibliothèque et à ses services.

- le réseau d’information superposé, qui se situe au niveau immédiatement supérieur, est la zone où sont modélisées les ressources de la bibliothèque, leurs descriptions, et la toile d’informations tissée autour d’elles.

- l’API de contrôle d’accès fournit l’accès programmatique total au RIS. Cela inclut l’accès aux composants du modèle de données - documents, données, métadonnées, acteurs, relations etc. - et la recherche au sein des relations (par ex., "trouver toutes les ressources impliquant une contribution de DLESE".

- l’API peut alors être utilisée par des contributeurs externes - par ex., des utilisateurs, des services, etc. - pour enrichir l’information dans le RIS. Ces requêtes effectuées à travers les API, ajoutent à la fois des noeuds supplémentaires (comme les objets d’apprentissage qui combinent des ressources existantes), et de nouvelles relations entre ces nœuds.

Ce mouvement bi-directionnel (la représentation des ressources primaires à partir de la couche de données brutes / la représentation de l’information contextuelle à partir de la couche supérieure) permet au RIS d’évoluer à travers le temps vers un espace d’information de plus en plus riche. De la même façon que Amazon.com est une source d’information qui dépasse de loin le simple catalogue de produits, on peut imaginer que les bibliothèques numériques fondées sur le modèle du RIS reflèteront les communautés de savoir qui se construisent à partir des ressources de la bibliothèque.

La plateforme pour implémenter le RIS est Fedora, un logiciel libre de gestion d’entrepôt. Fedora a été déployé dans une variété d’applications incluant des entrepôts institutionnels, des archives, des musées, des projets de bibliothèques commerciales.

Chaque noeud dans le RIS correspond à un objet numérique dans Fedora. Chaque arête dans le RIS correspond à une relation sémantique exprimée à l’intérieur du modèle d’objets numériques de Fedora. On peut citer des relations de gestion bien connues (du type organisation des items dans une collection), des relations de structure (liens de la partie au tout entre des chapitres et un livre), des relations sémantiques utiles dans une organisation de bibliothèque numérique éducative comme la pertinence des sujets, des niveaux d’études, des programmes d’enseignement...

Conclusion

En définitive, qu’est-ce qu’une bibliothèque numérique ? La stupéfiante réussite des moteurs de recherche commerciaux a changé la donne. Les fonctions de recherche et d’accès sur un ensemble de ressources, en dépit de leur importance, ne suffisent pas. Les bibliothèques numériques ont besoin de se distinguer des moteurs de recherche par la façon dont elles ajoutent de la valeur aux ressources internet. Cette valeur ajoutée consiste à mettre ces ressources en contexte, à les enrichir par de nouvelles informations et des relations qui expriment les modèles d’usage et le savoir de la communauté servie par la bibliothèque. La bibliothèque numérique devient alors un espace pour l’information collaborative et l’enrichissement - bien plus qu’un simple endroit où trouver de l’information et y accéder.

7. Porphyre : un exemple de système pour les bibliothèques numériques^⁶

Un modèle pour les bibliothèques numériques

Trop souvent les bibliothèques dites numériques sont une accumulation de pages déversées dans un site " web ". Dans le meilleur des cas, ces pages ont fait l’objet d’une sélection, voire même d’une organisation. Dans le cas des bibliothèques spécialisées, il est indispensable que cette sélection et cette organisation ne soient pas assurées uniquement par le bibliothécaire mais également par les usagers.

D’un point de vue théorique, le sens d’un document n’est pas dans sa structure, mais dans les conditions de son utilisation et donc dans les conditions de sa lecture. Il est impossible de trouver le sens d’un document mais plutôt des sens. Toute lecture est donc une réécriture. Un système adéquat devrait permettre de garder trace des parcours d’interprétation des lecteurs. Une trace, c’est la forme qui demeure quand le contenu a disparu. On peut rappeler que l’ordinateur ne traite que de symboles dénués de signification. C’est à l’utilisateur qu’incombe la difficile tâche de donner un contenu à ce qui n’est que formel.

En résumé, une trace peut être définie comme la composition d’un symbole logique, d’un contexte, et d’indices de situation. Mais, il ne suffit pas de stocker des traces, encore faut-il les partager… La métaphore choisie par Benel, Iacovella et Calabretto est celle de la publication. Cette " mise en public " est basée sur une relation de confiance concrétisée par une communauté. L’adhésion d’un expert à une communauté nécessite l’accord commun de l ‘expert et du représentant de la communauté. Membre de la communauté, l’expert peut lire les documents et les traces publiés par les autres membres. Il peut ajouter ses propres interprétations sur ses propres documents ou les documents de la communauté.

7.2. Le système Porphyre et ses fonctionnalités

Le système s'appuie sur une architecture multi-tiers, il dispose d'un client de consultation " web " ouvert à tous les publics, d'un client natif (en java) destiné aux membres d’une communauté, de " servlets ", de serveurs " web ", de serveurs natifs parallélisés, et de serveurs de base de données.

Les traces créées par l’utilisateur sont enregistrées " côté serveur ". Suivant leur nature, les traces sont stockées soit dans des fichiers sur des serveurs FTP/HTTP, soit dans des bases de données interrogées par les serveurs Porphyre. La soumission de traces se fait par l’intermédiaire d’un format d’échange en XML. Par conséquent, en utilisant des " moulinettes " XSLT, il devient possible d’ouvrir Porphyre à d’autres systèmes (documentaires, bibliographiques, etc.).

Le premier type de traces comprend les documents et les fragments de documents. Tandis que les documents sont stockés sur des serveurs " web ", les fragments sont extraits des documents d’origine, à la volée, par des " servlets ". Différentes présentations sont possibles suivant que l’on préfère voir le fragment seul ou dans son contexte d’origine. Les formats supportés sont pour l’instant le texte intégral et les images JPEG. Le deuxième type de traces est constitué par les dossiers et les corpus. Il s’agit de l’extension de la structure des " signets " offerte par certains butineurs. L’étiquette d’un dossier permet de décrire un corpus de documents (ou de fragments). Pourtant, il est souvent souhaitable de décrire un document selon différents points de vue complémentaires (les bibliothécaires parlent de " facettes "). En recoupant ces facettes, d’autres corpus voient le jour. En offrant à la fois ces corpus a priori et a posteriori on obtient avec Porphyre une structure de dossier étendue, accompagnée d’un algorithme " d’auto-complétion ". Le troisième et dernier type de traces consiste en des parcours de lecture. Il s’agit de la généralisation de la notion " d’historique " offert par les butineurs et de celle de " visite guidée " offerte par certains systèmes hypermédia.

Le système Porphyre constitue en résumé, un modèle de bibliothèque numérique dans laquelle l’usager peut stocker ses traces d’interprétation et les partager avec une communauté d’usagers (publication).

8. Notre projet : vers une bibliothèque numérique « Claude Bernard »

8.1. Introduction

Les brèves synthèses précédentes témoignent de la richesse et de la complexité de la notion de corpus et de ses destinations. De son actualité surtout, au travers des banques de données et des bibliothèques numériques qui, un peu partout, se développent. Comme si un nouveau regard reconsidérait les problèmes d’information et la question centrale de l’archive. D’où cette double responsabilité qui incombe, plus que jamais, aux corpus : celle, synchronique, de traduire et donner à voir des mouvements d’idées, des contextes intellectuels, et celle, diachronique, de rendre compte et d’illustrer une pensée qui progresse, une idée nouvelle qui se construit dans la durée, source d’autres idées.

Ainsi, les corpus se révèlent précieux pour différents types d’études : (i) la génération textuelle sous l’angle de la confrontation entre genres discursifs ; (ii) la construction de réseaux textuels qui vont sous-tendre des architectures sémantiques ; (iii) la mise au jour de réseaux notionnels qui, tel que dans Colisciences, vont organiser le champ d’un domaine ou d’une discipline. La question du sens est à chaque fois, fondamentale, mais le sens n’est pas un donné : il est l’objet même que produit et vise tout corpus.

A chaque corpus donc, peut-on dire, son sens, et aussi son auteur. Un corpus échappe-t-il à son auteur ? Assurément non, mais qui est l’auteur d’un corpus ? Cela peut être un individu (l’œuvre d’un écrivain par exemple), une collection (les numéros de tel journal pour telle année) ou encore une anthologie (les poètes du XVIe siècle, etc). Tout corpus exhibe d’une certaine façon, les règles constitutives qui l’ont fondé, à savoir : (i) les frontières qui délimitent son domaine ; (ii) les types d’objets qui lui sont propres en regard de ceux qui ne lui appartiennent pas ; (iii) les relations entre ces objets et des situations déterminées. C’est cette mise en situation des objets qui va contribuer fortement à légitimer chaque corpus. Car, au plan spatio-temporel, elle fonde les propriétés et donc les modes d’existence des objets, leurs statuts, leurs mises en réseau dans le corpus. On pense généralement aux relations externes qui lient un corpus à une certaine « réalité ». C’est oublier l’importance des réseaux internes qui tissent la trame constitutive d’un corpus. Ces réseaux internes sont ceux que créent les notions propres à chaque corpus, qui en fondent à chaque fois, la cohésion, qui vont encore indexer les significations attachées à tel objet, à telle situation. Ce sont enfin ces index qui vont organiser l’ontologie du réseau, c’est-à-dire les principes, les « axiomes » qui lui donneront interprétation et donc lecture.

8.2. Motivation : Pourquoi Claude Bernard ?

Réaliser comme nous l’avons fait avec Colisciences un corpus (environ 6 000 pages) des biologistes de langue française du 19e siècle pose immédiatement la question de la pertinence du choix des auteurs sélectionnés. Pour la même période, mais dans le monde anglo-saxon, nous aurions évidemment choisi Charles Darwin. En France, six figures “ emblématiques ” s’imposent au cours de ce 19^e siècle, durant lequel la biologie moderne prend son essor : Jean-Baptiste Lamarck, Georges Cuvier, Étienne Geoffroy Saint-Hilaire, Isidore Geoffroy Saint-Hilaire, Louis Pasteur et Claude Bernard. Le premier pour sa théorie transformiste ; les deux suivants, pour la célèbre querelle qui les opposa au sujet des plans d’organisation des êtres vivants, et pour leur réflexion sur l’ordre et la diversité du vivant ; le quatrième pour sa tératologie ; les derniers, pour les bouleversements théoriques et expérimentaux de la chimie biologique et de la physiologie. Dans cette sommaire distinction, se dessine une dichotomie entre biologie en tant qu’histoire naturelle et biologie en tant que mécanisme. Le champ de la biologie est ainsi partagé suivant cette ligne de séparation. Les grandes oppositions théoriques et métaphysiques sur la nature du vivant (matérialisme, vitalisme, déterminisme, hasard, liberté, nécessité, finalisme, etc.) et les doctrines du vivant alimentent les réflexions de ces savants et des nombreux commentateurs. Ainsi, Claude Bernard n’est pas seulement le disciple dépassant son maître Magendie dans l’art de la “ dissection ” physiologique. Il avance en terre de sang et d’humeurs, de viscères et de fluides circulants, avec des théories qu’il veut évaluer :

« Il faut avoir été élevé et avoir vécu dans les laboratoires pour bien sentir toute l’importance de tous ces détails de procédés d’investigation, qui sont si souvent ignorés et méprisés par les faux savants qui s’intitulent généralisateurs. Pourtant on n’arrivera jamais à des généralisations vraiment fécondes et lumineuses sur les phénomènes vitaux, qu’autant qu’on aura expérimenté soi-même et remué dans l’hôpital, l’amphithéâtre ou le laboratoire, le terrain fétide ou palpitant de la vie. » (Introduction à l’étude de la médecine expérimentale).

A des titres divers, des savants comme Claude Bernard font œuvre de science tout en “ philosophant ” sur les formes de l’enquête scientifique. Ils théorisent ou pratiquent de façon intriquée à leur travail opiniâtre dans le laboratoire ou sur le terrain de fouille ce que nous appelons aujourd’hui l’épistémologie. Leurs écrits valent pour leur importance historique et pour la portée de ce qui s’y condense en termes de pensée et de concepts, mais qu’ils sont aussi – c’est un aspect peu souligné – exemplaires de ce qu’une langue – le français – peut faire quand il s’agit de décrire et analyser la profusion des formes et des manifestations du vivant. Le français des scientifiques du 19^e siècle sait se faire précis sans aridité, inventif sans être évasif, adéquatement indécis (travail de l’hypothèse) sans être hésitant, etc. C’est aussi cet usage de la langue qu’un tel corpus peut exhiber. C’est pourquoi nous souhaitons mettre en avant l’idée d’un patrimoine langagier : la terminologie des sciences naturelles est profuse et spécialisée ; de surcroît, elle est dépendante des “ traditions ” de recherche, des méthodes ou des domaines. Ainsi, le terme espèce est un exemple remarquable de la plurisémie disciplinaire et historique qui peut rendre difficile l’usage ou la compréhension de certains vocables. Disposer de corpus denses et variés (chronologiquement et thématiquement) offre la possibilité de comparer les usages terminologiques. Cela peut donner lieu à des utilisations professionnelles pour les linguistes et les terminologues, aussi bien qu’à une initiation aux concepts et notions des sciences naturelles par le biais de l’étude des champs lexicaux et sémantiques. On pense alors à tous les rapprochements conceptuels et culturels qui peuvent être mis en place entre des disciplines que l’hyper-spécialisation des savoirs contemporains dissocie parfois au point de les rendre étanches aux apports des disciplines voisines.

Constituer une Bibliothèque numérique « Claude Bernard » qui comporterait la totalité de ses œuvres, signifie montrer l’étendue de ses recherches et de sa pratique expérimentale. Si les anglophones ont une Intégrale Darwin (aussi bien papier qu’électronique), il serait dommage qu’aucun des grands savants biologistes du 19e siècle français (à l’exception de Lamarck et maintenant de Buffon) ne bénéficie d’une telle postérité éditoriale. De plus, il ne s’agirait pas seulement d’une édition électronique mais d’un hypertexte, c’est-à-dire un corpus sans équivalent car combinant les avantages d’ores et déjà reconnus d’un “ corpus électronique ” (informatisation des fonctions classiques de la forme livresque) et le profit inhérent à l’hypertexte, en tant qu’il peut donner lieu à de nouvelles offres de lecture et d’appréhension des textes. L’enjeu n’est donc pas uniquement de “ verser ” dans une base textuelle des ouvrages numérisés, mais de leur donner une pleine expansion : cela requiert un constant travail de constitution de l’hypertexte qui s’enrichit des apports venant des intervenants multiples susceptibles de commenter, annoter, analyser, etc., les textes sources.

8.3. Les outils et méthodologies conséquentes

Au plan linguistique, il s’agira de :

• tester à l’échelle supérieure, des phénomènes habituellement traités au niveau phrastique et ce, dans la lignée des travaux de G. Vignaux sur les processus énonciatifs ;

• extraire des récurrences d’expression sur des thématique centrales du domaine ;

• mettre au jour des convergences et des divergences de sens ;

• dessiner des cartographies d’arguments qui vont aider à repérer des positionnements d’objets significatifs de l’œuvre bernardienne.

Au plan cognitif, il importera de :

• établir des faisceaux de points de vue traduisant des polarisations sémantiques et conceptuelles ;

• tracer des parcours chronologiques et/ou diachroniques de conceptualisations contribuant à la spécification d’histoires des idées soit sous forme d’évolutions épistémiques d’une discipline (naissance d’une science expérimentale), soit sous forme d’inventaires de secteurs de connaissances constitutifs de futurs thésaurus ;

• construire des architectures de sens favorisant l’indexation et donc la classification des objets du corpus en même temps qu’assurant des « panoramas » d’une œuvre, d’une pensée. Il s’agira à la fois de clôturer des espaces de connaissances en même temps que d’ouvrir à des embranchements conceptuels et cognitifs, constitutifs de l’hypertextualisation.

Développements expérimentaux et scientifiques

• exploiter les ressources du virtuel sous forme de mise à disposition sur le site, d’un réseau coordonné d’aides à la lecture ;

• construire une architecture du sens au plus près des différentes topiques du fonds (thèmes, notions) ;

• établir entre domaines et sous-domaines des relations cohérentes au plan cognitif ;

• domaines et sous-domaines doivent converger sur des thématiques qui vont jalonner les champs (les grandes divisions) de la future bibliothèque numérique ;

• une indexation généralisée doit permettre l’extraction rapide de mots-clés, indicateurs de domaines mais aussi de notions :

• les notions sont des entités sémantiques génériques, coordonnant et légitimant les conceptualisations appliquées aux domaines et sous-domaines : elles sous-tendent l’architecture de la bibliothèque numérique ;

• d’où l’importance d’un appareil dictionnairique offrant plusieurs types d’entrées : notions, thèmes, auteurs, termes spécifiques.

• enfin, des bibliographies locales doivent converger vers une bibliographie générale.

Le corpus Claude Bernard

Les ouvrages et articles présents dans Colisciences :

"De l'origine du sucre dans l'économie animale" (1848, article)

"De la présence du sucre dans le foie" (1848, article)

"Influence du système nerveux sur la production du sucre dans l'économie animale" (1849, article)

"Présence du sucre dans les matières vomies par un diabétique" (1849, article)

"Autopsie d'un diabétique" (1850, article)

"Chiens rendus diabétiques" (1850, article)

"De l'assimilation du sucre de canne" (1850, article)

"Du sucre dans l'oeuf" (1850, article)

"Influence de la section des pédoncules cérébelleux moyens sur la composition de l'urine" (1850, article)

"Note sur la présence du sucre dans l'urine du foetus et dans les liquides amniotique et allantoïdien" (1851, article)

"Sur les causes de l'apparition du sucre dans l'urine" (1851, article)

Recherches sur une nouvelle fonction du foie considéré comme organe producteur de matière sucrée chez l'homme et les animaux (1853, livre)

"Expériences instituées pour déterminer dans quelles conditions certaines substances qui sont habituellement gardées par le sang passent dans les urines" (1854, article)

"Note sur la présence du sucre dans le sang de la veine porte et dans le sang des veines hépatiques" (1855, article)

"Remarques à propos de la communication de M. Lehmann" (1855, article)

"Remarques sur la sécrétion du sucre dans le foie faites à l'occasion de la communication de M. Lehmann" (1855, article)

"Sur le mécanisme de la formation du sucre dans le foie" (1855, article)

"Sur les phénomènes glycogéniques du foie" (1856, article)

"Remarques sur la formation de la matière glycogénique du foie" (1857, article)

"Sur le mécanisme physiologique de la formation du sucre dans le foie (suite)" (1857, article)

"Nouvelles recherches expérimentales sur les phénomènes glycogéniques du foie" (1858, article)

"De la matière glycogène considérée comme condition de développement de certains tissus, chez le foetus, avant l'apparition de la fonction glycogénique du foie" (1859, article)

"Sur une nouvelle fonction du placenta" (1859, article)

"De la matière glycogène chez les animaux dépourvus de foie" (1860, article)

"Recherches sur l'origine de la glycogénie dans la vie embryonnaire. Nouvelles fonctions du placenta" (1860, article)

Introduction à l'étude de la médecine expérimentale (1865, livre)

"Critiques expérimentales sur la glycémie des conditions physico-chimiques et physiologiques à observer pour la recherche du sucre dans le sang" (1876, article)

"Critique expérimentale sur le mécanisme de la formation du sucre dans le foie" (1877, article)

La science expérimentale (1878, livre)

Total : environ 900 pages

2. Les ouvrages signalés conservés par la Bibliothèque de l’université Lyon 1 – Claude Bernard.

Sous-collection 1 : Métabolisme, physiologie générale

Leçons de physiologie expérimentale appliquée à la médecine, faites au Collège de France (2 vol.)
Leçons sur les phénomènes de la vie communs aux animaux et aux végétaux (404)
Leçons sur les effets des substances toxiques et médicamenteuses (488)
Leçons sur les propriétés physiologiques et les altérations pathologiques des liquides de l’organisme (2 vol.)
Leçons sur les propriétés des tissus vivants (492)
Rapport sur les progrès et la marche de la physiologie générale en France (237)
Leçons sur la chaleur animale, sur les effets de la chaleur et sur la fièvre (471)
L’Œuvre de Claude Bernard, introduction par Mathias Duval ; notices par E. Renan, Paul Bert et Armand Moreau ; table alphabétique et analytique des œuvres complètes de Claude Bernard par le dr. Roger de la Coudraie ; bibliographie des travaux scientifiques… par G. Malloizel. (384)

Total : environ 3300 pages

Sous-collection 2 : Physiologie de la digestion, médecine

Du suc gastrique et de son rôle dans la nutrition (25)
Mémoire sur la pancréas et sur le rôle de suc pancréatique les phénomènes digestifs, particulièrement dans la digestion des matières grasses neutres (190)
Leçons de pathologie expérimentale (604)
Leçons sur le diabète et la glycogenèse animale (576)

Total : environ 1500 pages

Total général : environ 5700 pages.

B-3 – Bibliographie et état de la question

Bibliographie réduite

Adam, J.-M. 1999. Linguistique textuelle. Des genres de discours aux textes, Paris, Nathan.

Aijmer, B. & Altenberg, K. (éd.). 2002. Advances in Corpus Linguistics, Amsterdam, Rodopi.

Biber, D., Conrad, S. & Reppen, R. 1998. Corpus linguistics. Investigating language, Structure and Use, Cambridge, Cambridge University Press.

Bommier-Pincemin, B. 1999b. Construire et utiliser un corpus : le point de vue d'une sémantique textuelle interprétative, in A. Condamines et al.(éd.), Corpus et traitement automatique des langues : pour une réflexion méthodologique, Cargèse, Actes de l'atelier thématique TALN, p. 26-36.

Corpus (2002). « Corpus et recherches linguistiques », 1, numéro coordonné par Sylvie Mellet, 175 p.

Bouaud, J., Habert, B., Nazarenko, A., Zweigenbaum, P., 1997, " Regroupements issus de dépendances syntaxiques en corpus : catégorisation et confrontation de deux modélisations contextuelles. " In Ingénierie de la connaissance, Roscoff.

Bourigault, D., 1994, LEXTER, un Logiciel d'EXtraction de TERminologie. Application à l'extraction des connaissances à partir de textes. Thèse en mathématiques, informatique appliquée aux sciences de l'homme, Ecole des Hautes Etudes en Sciences Sociales, Paris.

Boutayeb, S., 1995, Les concepts lexicalisés dans le domaine des techniques documentaires. Thèse de doctorat en Sciences du Langage, Université Paris XIII, 1995.

Dalbera, J.-Ph. 2002. Le corpus entre données, analyse et théorie, Corpus, 1, p. 89-105.

Dalbera, J.-Ph. (1996). « Aspects heuristiques : strates et représentations dans une base de données dialectales ». In G. Moracchini (éd.) Bases de données linguistiques : conceptions, réalisations, exploitations. Corte, pp. 103-116.

Grefenstette, G.,

1994a, " Corpus-derived first, second and third order affinities ". In EURALEX, Amsterdam.

1994b, Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publisher. Dordrecht. The Netherlands.

Habert, B., Nazarenko, A., Salem, A., 1997. Les linguistiques de corpus, Paris, Colin.

Habert, B., Herviou-Picard, M.-L., Bourigault, D., Quatrain, R., Roumens, M., 1997, "Un outil et une méthode pour comparer deux extracteurs de groupes nominaux". In 1ères Journées Scientifiques et Techniques FRANCIL.

Labbé, D., 1990, Le vocabulaire de François Mitterrand. Presses de la Fondation nationale des Sciences Politiques, Paris.

Lerat, P., 1995, Les langues spécialisées, Linguistique nouvelle, PUF, Paris.

Mayaffre, D. 2005. Les corpus politiques : objet, méthode et contenu, Corpus, 4, (sous presse).

Moirand, S., Ali Bouacha, A., Beacco, J.-C., Collinet, A., 1994, Parcours linguistiques de discours spécialisés.- Berne : Peter Lang.

Scheer, T. 2004. Le corpus heuristique : un outil qui montre mais ne démontre pas. Corpus, 3, p. 153-193.

Williams, G. (éd.) 2005. La linguistique de corpus, Rennes, PUR.

Zweigenbaum, P., et Consortium MENELAS, 1994, MENELAS : an access system for medical records using natural language. In Computer methods and programs in Biomedicine, 45:117-120.

Bibliothèque numérique

New Pathways to the National Science Digital Library, 2004

<http://www.infosci.cornell.edu/news/NSDL_Pathways.pdf>.

"Report of the Science, Mathematics, Engineering, and Technology Education Library Workshop," National Science Foundation, Washington, DC, Workshop Report July 21-23 1998.

<http://www.dlib.org/smete/public/report.html>.

W. Y. Arms, D. Hillmann, C. Lagoze, D. Krafft, R. Marisa, J. Saylor, C. Terrizzi, and H. Van de Sompel, "A Spectrum of Interoperability : The Site for Science Prototype for the NSDL," D-Lib Magazine, 8 (1), 2002.

<doi:10.1045/january2002-arms>.

D. Bearman, G. Rust, S. Weibel, E. Miller, and J. Trant, "A Common Model to Support Interoperable Metadata. Progress report on reconciling metadata requirements from the Dublin Core and INDECS/DOI Communities," D-Lib Magazine, 5 (January), 1999.

<doi:10.1045/january99-bearman>.

<doi:10.1045/november2003-bekaert>.

C. L. Borgman, "The invisible library : Paradox of the global information infrastructure," Library Trends, 51 (4), pp. 652, 2003.

C. L. Borgman, "What are digital libraries ? Competing visions," Information Processing & Management, 1999 (35), pp. 227-243, 1999.

R. Daniel Jr. and C. Lagoze, "Extending the Warwick Framework : From Metadata Containers to Active Digital Objects," D-Lib Magazine (November), 1997.

<doi:10.1045/november97-daniel>.

E. Fox, R. M. Akscyn, R. K. Furuta, and J. J. Leggett, "Digital libraries," Communications of the ACM, 38 (4), pp. 22-28, 1995.

C. Lagoze, W. Arms, S. Gan, D. Hillmann, C. Ingram, D. Krafft, R. Marisa, J. Phipps, J. Saylor, C. Terrizzi, W. Hoehn, D. Millman, J. Allan, S. Guzman-Lara, and T. Kalt, "Core Services in the Architecture of the National Digital Library for Science Education (NSDL)," presented at Joint Conference on Digital Libraries, Portland, Oregon, 2002.

C. Lagoze, H. Van de Sompel, M. Nelson, and S. Warner, The Open Archives Initiative Protocol for Metadata Harvesting - Version 2.0, 2002

<http://www.openarchives.org/OAI/openarchivesprotocol.html>.

Library of Congress, METS : An Overview & Tutorial, 2004

<http://www.loc.gov/standards/mets/METSOverview.v2.html>.

C. A. Lynch and H. Garcia-Molina, "Interoperability, Scaling, and the Digital Libraries Research Agenda," IITA Digital Libraries Workshop May 18-19 1995.

<http://www-diglib.stanford.edu/diglib/pub/reports/iita-dlw/main.html>.

C. A. Lynch and M. A. Keller, googlization, digital repositories, distance education, and privacy, 2005

<http://www.learningtimes.net/acrlarchive.html>.

National information Standards Organization (U.S.), The OpenURL Framework for Context-Sensitive Services, 2003

<http://www.niso.org/standards/resources/Z39_88_2004.pdf>.

S. Payette and C. Lagoze, "Flexible and Extensible Digital Object and Repository Architecture (FEDORA)," presented at Second European Conference on Research and Advanced Technology for Digital Libraries, Heraklion, Crete, 1998.

President’s Information Technology Advisory Committee : Panel on Digital Libraries, "Digital Libraries : Universal Access to Human Knowledge," PITAC February 2001.

<http://www.itrd.gov/pubs/pitac/pitac-dl-9feb01.pdf>.

J. Ward, "A Quantitative Analysis of Unqualified Dublin Core Metadata Element Set Usage within Data Providers Registered with the Open Archives Initiative," presented at Joint Conference on Digital Libraries, Houston, 2003.

F. Wattenberg, "A National Digital Libraries for Science, Mathematics, Engineering, and Technology Education," D-Lib Magazine, 1998 (October), 1998.

<doi:10.1045/october98-wattenberg>.

L. L. Zia, "The NSF National Science, Technology, Engineering, and Mathematics Education Digital Library (NSDL) Program," D-Lib Magazine, 8 (11), 2002.

<doi:10.1045/november2002-zia>.

1 Les développements et observations qui vont suivre doivent à Damon Mayaffre (CNRS – UMR « Bases, corpus et langages, université de Nice-Sofia-Antipolis), notamment à son article paru dans les Actes des Journées d’Etude Toulousaines JETOU 2005, « Rôle et place des corpus en linguistique », Toulouse, 2005, p. 5-17.

2 D’après l’article de Jean-Philippe Dalbera, Corpus, N°1, novembre 2002.

3[www.bureaudelatraduction.gc.ca/pwgsc_internet/fr/publications/gratuit_free/man_termino/glossaire_f.htm]

4 www.limsi.fr/Individu/habert/Publications/Fichiers/fabre-et-al97.html

53. D’après l’article « What Is a Digital Library anyway, anymore ? » de Carl Lagozei, Dean B. Kraffti, Sandy Payettei, Susan Jesurogaii, Computing and Information Science, Cornell University, Ithaca, NY, article paru dans D-lib Magazine, novembre 19/01/2005, traduit par Frédéric Martin (BnF) et mis en ligne par l’équipe ARTIST : http://artist.inist.fr/article.php3?id_article=245.

lagoze, dean, payette@cs.cornell.edu

Ce qui suit emprunte à un texte rédigé par Aurélien Bénel, Andréa Iacovella et Sylvie Calabretto, Ecole française d’Athènes – LISI (INSA Lyon)

La bibliothèque virtuelle Claude Bernard

Menu:

Présentation du site

Textes en fac-similés

Textes numérisés

Paratextes