Par Claude Coulombe
Doctorant (TÉLUQ / UQAM, Lingua technologies, DataFranca)
En traitement de la langue naturelle, il n’est pas rare de se retrouver avec des quantités nettement insuffisantes de données pour entraîner un modèle profond. Ce « mur des données massives » représente un défi pour les communautés linguistiques minoritaires sur la Toile, les organisations, les laboratoires et les entreprises qui rivalisent avec les géants du GAFAM. Cette présentation abordera la faisabilité de différentes techniques simples, pratiques et robustes d’amplification textuelle basées sur le traitement de la langue naturelle et l’apprentissage automatique afin de pallier l’insuffisance de données textuelles pour l’entraînement de gros modèles statistiques, particulièrement pour l’apprentissage profond.
▶ Visionnez ou téléchargez les diapositives
▶ Visionnez, partagez, sous-titrez ou remixez la vidéo sur Youtube.
Licence
Franchir le « mur des données massives » est mis à disposition selon les termes de la licence Creative Commons Attribution 4.0 International. Les autorisations au-delà du champ de cette licence peuvent être obtenues auprès de Claude Coulombe.