Traducción automática, sin diccionario

Información
31 Enero 2018
social youtube xornalgalicia   feed-image

Un estudio del grupo IXA de la Facultad de Informática de la UPV/EHU abre una nueva línea de investigación en el campo del procesamiento del lenguaje natural

 

La mayoría de los sistemas de aprendizaje automático requieren supervisión humana, y la traducción automática no es una excepción: el ordenador utiliza millones de traducciones hechas por personas para extraer patrones y, de esta forma, aprender a traducir cualquier texto. Este método funciona bien con pares de idiomas como el inglés y el francés, pues existen muchas traducciones entre ambos. Sin embargo, no es tan efectivo para la gran mayoría de pares de idiomas con recursos limitados, como es el caso del alemán-ruso o el euskera-inglés, por ejemplo. En este contexto, Mikel Artetxe, Eneko Agirre y Gorka Labaka, investigadores del grupo IXA de la Facultad de Informática de la Universidad del País Vasco/ Euskal Herriko Unibertsitatea (UPV/EHU), han desarrollado un método de traducción automática basado en el aprendizaje sin supervisión, es decir, sin necesidad de diccionarios o traducciones humanas. “Imagina que le das a una persona una gran cantidad de libros escritos en chino y otros tantos, distintos, en árabe, con el objetivo de que aprenda a traducir del chino al árabe. A priori parece una tarea imposible para un ser humano. Pero nosotros hemos demostrado que un ordenador es capaz de hacerlo”, afirma Mikel Artetxe, que está realizando su tesis doctoral sobre el procesamiento del lenguaje natural y el aprendizaje automático.

Este nuevo método que proponen los investigadores de la UPV/EHU supone un gran avance en el campo de la traducción automática, ya que abre una nueva línea de trabajo que muestra que las redes neuronales, algoritmos informáticos que se inspiran en el cerebro humano, pueden aprender a traducir sin necesidad de traducciones preexistentes. Se da la casualidad que otro estudio, desarrollado por un equipo de investigadores de Facebook y la Universidad de la Sorbona de París, ha propuesto un método similar. “Es sorprendente -subraya Artetxe- que nuestros métodos sean tan parecidos. Pero al mismo tiempo es positivo, pues significa que esta nueva aproximación va por el buen camino”. Los dos estudios, de los que se ha hecho eco la revista científica Science en su sección digital de noticias, fueron publicados en el repositorio virtual arXiv con un día de diferencia, y serán presentados en uno de los congresos más relevantes del área, el sexto encuentro internacional sobre el aprendizaje de representaciones (International Conference on Learning Representations - ICLR), que se celebrará en el mes de abril en Vancouver, Canadá.

En los únicos resultados comparables entre ambos estudios, el método del grupo IXA de la UPV/EHU obtuvo resultados ligeramente superiores, con una puntuación BLEU del 15% entre el francés y el inglés. A modo de comparativa, la máxima puntuación la obtienen métodos supervisados como Google Translate con cerca del 40%, si bien una persona supera el 50%. “Estamos en los inicios -aclara Mikel Artetxe- por lo que no sabemos hasta dónde puede llegar esta nueva línea de investigación”.

Itzulpen automatikoa, hiztegirik gabe

UPV/EHUko Informatika Fakultateko IXA taldearen ikerlan batek ikerketa ildo berri bat ireki du hizkuntzaren prozesamenduaren esparruan

Ikasketa automatikoa, gehienetan, gizakiak gainbegiratzen du, eta itzulpen automatikoa ez da salbuespen bat: ordenagailuak pertsonek egindako milioika itzulpen erabiltzen ditu patroiak atera eta testu berria itzultzen ikasteko. Hurbilpen horrek ondo funtzionatzen du ingelesa eta frantsesa bezalako hizkuntza bikoteekin, euren arteko itzulpen ugari baitaude. Hizkuntza bikote gehienek, baina, askoz baliabide urriagoak dituzte, eta hori arazo handi bat da alemaniera-errusiera edo euskara-ingelesa bezalako bikoteentzat. Testuinguru horretan, Universidad del País Vasco/ Euskal Herriko Unibertsitateko (UPV/EHU) Informatika Fakultateko IXA taldeko Mikel Artetxe, Eneko Agirre eta Gorka Labaka ikertzaileek ikasketa ez-gainbegiratuan oinarritutako itzulpen automatikoko sistema bat garatu dute. «Imajinatu pertsona bati txineraz idatzitako hainbat liburu ematen dizkiozula, eta arabieraz idatzitako beste hainbeste liburu (elkarren artean ezberdinak), txineratik arabierara itzultzen ikas dezan. Hasiera batean, gizaki batentzat ezinezkoa dirudi. Baina guk frogatu dugu ordenagailu batek lan hori egiten ikas dezakeela», azaldu du Mikel Artetxek, hizkuntzaren prozesamenduari eta ikasketa automatikoari buruzko tesia egiten ari denak.

UPV/EHUko ikertzaileek proposatutako metodo berri hori aurrerapauso garrantzitsua da itzulpen automatikoan, neurona sareek, giza burmuinean inspiratutako algoritmo informatikoek, testu paralelorik gabe itzultzen ikas dezaketela erakusten baitu lehen aldiz. Kasualitatez, beste ikerlan batek, Facebook-eko eta Sorbonako Unibertsitateko (Paris) ikertzaile talde batek egindakoak, antzeko metodo bat proposatzen du. «Harrigarria da —nabarmendu du Artetxek— gure metodoak hain antzekoak izatea. Baina aldi berean pozgarria da, hurbilpen berri hau norabide egokian doala esan nahi baitu». Bi ikerlanak, Science aldizkariak bere berrien edizio digitalean jaso zituenak, arXiv gordailu birtualean argitaratu ziren egun bateko aldearekin, eta apirilean Vancouverren (Kanada) egingo den errepresentazio ikasketaren nazioarteko seigarren biltzarrean (International Conference on Learning Representations - ICLR) aurkeztuko dira.

Bi ikerlanen arteko emaitza konparagarri bakarrean UPV/EHUko IXA taldearen metodoak emaitza zertxobait hobeak lortu zituen, % 15eko BLEU puntuazioa lortuz frantsesa eta ingelesaren artean. Puntuaziorik handiena Google Translate bezalako metodo gainbegiratuek lortzen dute, % 40 inguruko tasarekin, eta pertsona batenak % 50etik gorakoak izan ohi dira. «Hau hasiera baino ez da —argitu du Mikel Artetxek— beraz, ez dakigu noraino iritsiko den ikerketa ildo berri hau».

“BALBÍN MODERABA: TEMPLABA, AJUSTABA Y ARREGLABA; EVITABA EL EXCESO. Un comunicador imborrable.     MANUEL NOVÁS CAAMAÑO - TRICORNIOS EN DEMOCRACIA   30 Jun 2022 - Hace ya una semana nos ha “dejado” un hombre de bien, honra del periodismo auténtico, soberbio ser humano y ejemplo de dignidad y ética para generaciones presentes y futuras. Pero, como decía mi amigo Julio Martínez, existe una puerta más allá de la muerte, ya que las almas escalan el cielo...

El cuento que no acaba… con Trump y Boris siguen las sorpresas

Se va acabando ya la parte de la trama de...

Artículo Periodístico 2.505º: “Libro en CD: 800 Artículos Periodísticos”.

Esta edición-libro en CD, sin venta, gratuita, testimonial, con muy...

#UnionGC #GuardiasCiviles Nuestro equipo de comunicación te explica que conseguiríamos con la reclasificación de la esca…

Síguenos en http://mtr.cool/oyevmplamo #uniongc #uniongcenelconsejo #guardiacivil #igualdad #diversidad #compromiso https://twitter.com/uniongc/status/1451881643225006082?s=21

La huella malagueña de Santa Teresa

 El profesor de la UMA Rafael Esteve Secall publica 'El...

El 14F Catalunya tiene la palabra. ¿Cuánta violencia le queda a España?

A partir de ayer en USA escribiremos de nuestras cosas...

RESUMEN PLENO DEL CONSEJO DE LA GUARDIA CIVIL.

Acuerdo del Pleno del Consejo sobre los miembros de este...

América Latina en Málaga

Proyecto de creación de la Casa América o Instituto Cultural...

UniónGC Cantabria se congratula, que el Partido Regionalista de Cantabria, haga suyos sus postulados

    UnionGC, organización que defiende a los Guardias Civiles, con su...

SECESIÓN O INDEPENDENCIA. ¿SE NOS MARCHA CATALUÑA?

PRIMER CASO: HABER SUFRIDO PREVIA “COLONIZACIÓN”. SEGUNDO: BAJO ACUERDO CON GOBIERNO...

Tamboril para la Conflagración / artículo Opinión Jesús Antonio Fernández Olmedo.

29-06-2022 Opinión

Si hubiera un mínimo de inteligencia se hubiera invitado a Rusia y a Naciones Unidas a una Cumbre por la Paz...

Artículo Periodístico 3.084º: “Xaquin Marín, humorista gráfico gallego”.

29-06-2022 jmm caminero

F. Caballero Wangüemert ha redactado un profundo artículo titulado: Xaquin Marin: arte y compromiso del humor gráfico gallego donde analiza...

Los Señores de la Guerra / artículo Opinión Jesús Antonio Fernández Olmedo.

28-06-2022 Opinión

  Claro que está , los señores bien disfrazados de trajes elegantes y corbatas inclusos buenos y variados perfumes , pero sin...

No hay misas sin sacerdote. Por Diego Fierro Rodríguez

27-06-2022 Por Diego Fierro Rodríguez

En un programa de la televisión gallega se pudo apreciar una disputa sobre si es posible considerar que es válida...

Del Tarajal a Melilla, pasando por Aylan Kurdi.

27-06-2022 Opinión

Es imposible no calificar de asesinato colectivo la muerte de las 37 personas que intentaban entrar ilegalmente en España, tal...

NO SE CONSIGUE FRENAR COVID -19

26-06-2022 Opinión

EE. UU./ESPAÑA YA VACUNAN A NIÑOS 6-12 AÑOS   Hará unas dos/tres semanas sostuvimos con Uds. la última Columna. titulada: RASTREOS COVID-19...

Elecciones andaluzas por José Antonio de Yturriaga

26-06-2022 Por José Antonio de Yturriaga

¿LOS RESULTADOS DE LAS ELECCIONES EN ANDALUCÍA SUPONEN EL INICIO DE UN CAMBIO DE CICLO POLÍTICO EN ESPAÑA? 

Seis años desde la llegada del Brexit a nuestras vidas

25-06-2022 Opinión

Seis largos años han pasado desde el referéndum del Brexit… y que poco sabíamos de lo que se nos venía...

La Parranda de San Juan / artículo Opinión Jesús Antonio Fernández Olmedo.

24-06-2022 Opinión

El ser humano que está en este momento en la cúspide de la  pirámide animal siendo un privilegiado pero esto le...

JUEGO DE “RULETA RUSA” ECONÓMICA PARA EUROPA

23-06-2022 Opinión

ENIGMÁTICO Y ATREVIDO VIAJE A KIEW CON POSIBLES NUEVAS NEGOCIACIONES   Hace unos días emprendieron viaje a Kiev lideres de las economías...

EL CONTE DE LA LÒGICA / JOAN LLOPIS TORRES

22-06-2022 Joan Llopis

Abans d'explicar tot seguit un conte, de la lògica ha de quedar establert un principi bàsic que és que cal...

LA IMPRESCINDIBLE REGENERACION POLÍTICA ESPAÑOLA COMIENZA A SER BAUTIZADA BAJO CALIFICATIVOS PARTIDISTAS

22-06-2022 Opinión

Probablemente, muchos de Uds. habrán leído esta mañana en un Medio de tirada nacional Este Medio viene desde hace tiempo significando...

Consejos para administrar tu dinero en el trading

No importa las habilidades que poseas ya sea como ...

THE LATIN AMERICAN CULTURAL INSTITUTE OF DUBLIN PROJECT

The Latin American Institute of Dublin will be est...

A delegación do goberno multa un cidadán por reclamar atención en galego

A Mesa denuncia a vulneración dos dereitos lingüís...

lineaazul 1600