Les analyses linguistiques aussi bien que cognitives, socio-anthropologiques ou didactiques développées dans le laboratoire se caractérisent très généralement par la préoccupation de mettre la modélisation, la théorisation, la systématisation de la description à l’épreuve de données empiriques. C’est ainsi que le laboratoire est connu pour la richesse de ses corpus, enregistrés en vidéo et audio, d’interactions sociales en « milieu naturel » – que ce soit dans la vie quotidienne, en situation professionnelle ou en contexte éducatif. Il est connu pour la richesse des matériaux écrits et textuels sur lesquels se basent les recherches sur les manuscrits du Moyen-Âge aussi bien que les manuscrits sub-sahariens. Ces corpus, toutefois, ne sont pas seulement rassemblés et stockés de manière riche et diversifiée : le laboratoire a la caractéristique d’avoir constitué des banques de données de grands corpus, qui en permettent à la fois l’archivage et l’exploitation. La
BFM (Banque de Français Médiéval) compte un très riche ensemble de textes médiévaux annotés linguistiquement au niveau lexical, et décrits au niveau textuel par un important jeu de métadonnées. La banque de données
CLAPI (Corpus de LAngue Parlée en Interaction) compte des centaines d’heures d’enregistrements vidéo et audio transcrits, documentant les situations d’usage du langage les plus diverses, au travail, en famille, dans les institutions, dans des contextes ordinaires et des milieux spécialisés. La base de vidéos
VISA (VIdéos de Situations d’enseignement et d’Apprentissage) recueille des centaines d’heures de classe permettant une analyse détaillée, longitudinale et comparée des pratiques d’enseignement et d’apprentissage.
Ces banques de données ne se limitent toutefois pas à archiver des données mais proposent des plateformes outillées pour exploiter de grands corpus dont le traitement serait impossible manuellement. C’est ainsi que le laboratoire s’est illustré dans le développement de moteurs de requête complexes spécifiquement adaptés aux caractéristiques de la parole en interaction et de la multimodalité
(CLAPI), dans le cadre d’un projet ANR dans le développement d’une plateforme ouverte d’analyse textométrique pour les corpus annotés et structurés
(TXM), ainsi que sur des spécificateurs morphosyntaxiques d’entrées lexicales pour la base DIINAR (DIctionnaire INformatisé de l’ARabe). Les archives et les plateformes de langue parlée et de langue écrite constituent une base technologique qui soutient le développement innovant des recherches thématiques esquissées plus haut.