Meta busca socios para protexer as linguas infrarrepresentadas nos modelos de IA

venres, 7 de febreiro do 2025 Redacción

Dende Meta aseguran ter un compromiso a longo prazo en apoio das linguas infrarrepresentadas (o que sorprende se temos en conta o deficiente soporte de linguas nas súas aplicacións móbiles), e en 2022, lanzaron o proxecto No Language Left Behind (NLLB), un motor de tradución automática de código aberto para moitas linguas, que fixo posible un tradutor desenvolvido en colaboración coa UNESCO e Hugging Face.
Tamén presentaron o proxecto Meta Massively Multilingual Speech (MMS), que amplía a transcrición de audio a máis de 1.100 linguas, achegándose ao obxectivo de crear sistemas intelixentes que poidan comprender e responder ás complexas necesidades humanas, independentemente da lingua ou do contexto cultural.
Neste marco o equipo de Investigación Fundamental en Intelixencia Artificial (FAIR) de Meta, centrado en acadar unha intelixencia artificial avanzada (AMI) e usala para impulsar produtos e innovacións que beneficien a todo o mundo, segue a ampliar o apoio a linguas infrarrepresentadas nos modelos de IA, para o que lanzan un novo Programa de Socios en Tecnoloxía da Linguaxe, que está na procura de colaboradores que poidan contribuír con máis de 10 horas de gravacións de voz con transcricións, grandes cantidades de texto escrito (200 ou máis frases) e conxuntos de frases traducidas en diversas linguas. Os socios traballarán cos equipos de Meta para axudar a integrar estas linguas en modelos de recoñecemento de voz e tradución automática baseados en IA, que serán posteriormente liberados como código aberto e estarán dispoñibles de balde para a comunidade.
Os colaboradores terán acceso a obradoiros técnicos dirixidos polos equipos de investigación, nos que aprenderán a aproveitar os modelos de código aberto de Meta para desenvolver tecnoloxías lingüísticas.
Entre os colaboradores nesta iniciativa destacan o caso Nunavut (Canadá), que está a participar no programa para contribuír ao apoderamento dixitla das linguas inuit inuktitut e inuinnaqtun.

Banco de probas aberto para a tradución

Ademais do Programa de Socios en Tecnoloxía da Linguaxe, dende Meta veñen de lanzar un banco de probas de tradución automática de código aberto, un estándar de avaliación que axudará a medir o rendemento dos modelos de IA que realizan traducións. Composto por frases creadas con coidado por expertos lingüistas, pretendemos que este banco de probas amose a diversidade da linguaxe humana.