Recherches linguistiques et corpus

Dans le cadre du séminaire en Sorbonne « Recherches linguistiques et corpus »:

Le thème Recherches linguistiques et corpus mis en place au sein du laboratoire STIH de l’Université Paris-
Sorbonne a pour objet le développement d’une réflexion commune et croisée, d’ordre
épistémologique et méthodologique, sur la notion de corpus telle qu’elle est exploitée aujourd’hui dans les sciences du langage, et, plus largement, dans les sciences humaines et sociales. On y traite des questions relatives aux notions de donnée, d’observable, d’empiricité, de théorie (lien type/occurrence), de variable contextuelle, d’annotation, de codage, de catégorisation, etc. On s’interroge sur la fonction des corpus dans l’activité de recherche. Ce thème transversal est organisé en séminaires-ateliers ouverts notamment aux chercheurs, aux enseignants-chercheurs, aux ingénieurs, aux doctorants et aux étudiants de master. Les séances sont constituées de deux conférences, suivies d’un
atelier d’observation et d’application.

1 ère séance Mercredi 22 mars 2017, 14h-17h30

Université Paris-Sorbonne, salle des Actes
La science du texte :
enjeux numériques et épistémologie de la connaissance
Xavier-Laurent Salvador

La communication pose la question du lieu de la donnée au sein des ressources numérisées ou nativement numériques et cherche à élaborer des pistes de réponses en procédant à une description de la stratification du locator de la ressource qui est à la fois l’indication de l’adresse de la ressource en même temps que le moyen d’y accéder. L’adresse de la machine, le lieu de stockage du document puis l’ensemble des stratégies de description fine que proposent les markup languages (XML, XPath) permettent de reconstruire une image de l’information documentaire au sein de collections qui dépassent largement les définitions traditionnelles du cadre de l’URL telles que les envisageait Tim Berners Lee à la fin des années 1980. Les propositions REST faites par Roy Fielding dans sa thèse en 1990 et le développement des préconisations du W3C pour le développement du Web sémantique, et particulièrement d’XQuery, permettent de mettre en œuvre cette nouvelle philosophie du Web au service de la représentation des données textuelles, au premier rang desquelles l’objet Corpus, et d’impliquer des technologies d’adressage (RDF) de l’information organisée (OWL, SKOS, FOAF,…). Ce processus aboutit, pour tout lecteur humaniste du XXIe siècle, à envisager l’inaccessibilité du
texte source au profit d’une représentation sempiternellement réactualisée du contenu documentaire dont tout lecteur devient, par le biais de l’URL, le co-constructeur; voire l’un des auteurs.

DIM « Sciences du Texte et Connaissances nouvelles »
Textes numériques : sauvegarde et extension du sens
Joël Eline
Université Paris-Sorbonne (ATER)

L’informatique assume aujourd’hui un double rôle de conservation et de création : sans être impérissables, les formats numériques(texte, image, son) et les supports matériels (disque magnétique, optique, mémoires USB) ne dégradent pas l’information consignée au cours de leur vie. Dans le même temps, les contraintes d’entrée et de sortie de l’ordinateur actualisent les régimes d’interprétations, et offrent à l’émetteur comme au récepteur des horizons nouveaux. En s’intéressant essentiellement au texte, la présentation s’attachera dans un premier temps à circonscrire les difficultés rencontrées lors de la numérisation d’un œuvre, et à présenter les médiations nécessaires pour la sauvegarde du sens. Dans un second temps, en prenant l’exemple de la métaphore, elle montrera comment les spécificités de l’automate peuvent servir à redéfinir le mode de réception et d’interprétation des texte

Recherches linguistiques et corpus, séance du 22 mars