Internet
Noves millores al traductor català-castellà i nous parells de llengües

Millores al traductor català - castellà i incorporació de noves llengües: gallec, occità llenguadoc i japonès.

27/01/2023 Comunicació
Noves millores al traductor català-castellà i nous parells de llengües Noves millores al traductor català-castellà i nous parells de llengües

Durant l’any 2022 hem col·laborat amb estudiants del Màster Universitari en Traducció i Tecnologies de la UOC per a aconseguir millores al traductor al parell català - castellà, basat en tecnologia Apertium. S’ha recopilat un conjunt de textos d’avaluació de 12.000 frases pel castellà - català i 12.000 més de castellà al català, que s’han traduït amb Apertium i revisat manualment per avaluar les traduccions i identificar les millores. Gràcies a aquest procés es van identificar més de 80 millores i se n'han implementat 50 al projecte lliure Apertium per millorar la traducció del castellà al català. Les millores que presenten  es troben ja disponibles a la pàgina web del nostre traductor.

Traductor neuronal

En tecnologia neuronal, hem col·laborat amb alumnes del màster de Tradumàtica de la UAB per a desenvolupar una primera versió d’un traductor japonès - català. També hem obert la traducció als parells de llengües gallec - català i occità llenguadoc - català, gràcies a la transferència de coneixements dels models publicats per Meta com a part del projecte No Language Left Behind. Posem a disposició de tothom els corpus i els models neuronals que usem de traducció sota llicència lliure perquè qualsevol els pugui utilitzar. També s’ha treballat amb el projecte ArgoTranslate/LibreTranslate (usats per Mastodon) i Mozilla Translate per donar-los visibilitat d’aquests recursos i que els usin per a entrenar els seus models de traducció.

Finalment, hem doblat la mida dels fitxers que els usuaris ens poden enviar per traduir fins a 8 MB.

Paral·lelament a les millores implementades al traductor web, estem organitzant tallers sobre traducció neuronal on expliquem el funcionament i el procés d’entrenament d’un motor de traducció neuronal per anar vertebrant una comunitat que conegui aquesta tecnologia.

Història del traductor de Softcatalà

Inicialment, Softcatalà utilitzava el traductor Internostrum, desenvolupat per la Universitat d'Alacant, a la seva web per tal d’oferir un servei de traducció automàtica català-castellà de qualitat.

L'any 2004 va sorgir la plataforma Apertium, hereva de la filosofia dels traductors Internostrum i Universia, però programat des de zero per a aconseguir millors resultats.

L'any 2010, Softcatalà va presentar el traductor basat en el projecte de programari lliure