DiKaLa : des outils numériques pour les langues kanak | digital tools for Kanak languages

Date : 1 février 2025

DiKaLa vise le développement de 3 outils numériques phares :

(i) LexiKa, une base de données lexicales plurilingues, permettant des requêtes croisées entre les langues et alimentées principalement à partir des dictionnaires déjà existants (mais souvent peu accessibles) dans les langues locales ;

(ii) KaLiA, un atlas linguistique comparatif, permettant une visualisation cartographique du lexique de base (~200 mots du quotidien) avec des enrichissements audio (mot prononcé) et donnant à voir les délimitations des isoglosses ;

et enfin (iii) ArKa, une plateforme d’archivage de corpus en langues kanak, dans un but double de conservation pérenne des productions en langues (orales et textuelles) et de mise à disposition d’archives cataloguées. Au final, il est envisagé que ces trois outils s’alimentent en réseau, l’archive ArKa permettant, par exemple d’illustrer en contexte les occurrences des mots référencés dans la base de données lexicographiques LexiKa.

Ces outils et la méthodologie qui sous-tend leur conception s’appuient sur une démarche à la fois collaborative (les usagers pouvant apporter leurs propres feedbacks et contributions en ligne) et ouverte (accessibilité gratuite en ligne), avec la volonté de s’inscrire pleinement dans une « Science par et pour la Société ».

Ces développements innovants font converger des technologies de reconnaissance optique de textes ; de linguistique computationnelle ; d’apprentissage automatique et d’intelligence artificielle. Le montage du projet DiKaLa a pu s’appuyer sur les acquis développés grâce au projet pilote LexiKa, financé par la Fondation de l’UNC (2021) et qui a servi de réel tremplin pour ce projet ANR.

Financements

Projet lauréat de l’appel à projets génériques 2024 de l’Agence Nationale de la Recherche dans la section « Arts, langues, littératures, philosophies » et au titre de l’instrument de financement Jeunes Chercheurs et Jeunes Chercheuses. (ANR-24-CE54-6877-01)

Membres du projet

Anne-Laure Dotte, coordinatrice scientifique, expertise linguistique et lexicographique
Jannai Tokotoko, post-doctorant, expertise informatique, sciences de données et IA

Coordonnatrice scientifique

Anne-Laure Dotte
anne-laure.dotte@unc.nc
tél : 29.04.17