Site icon Guides ✓ Magazine, Astuces, Tutoriels & Revues

Traduction automatique, des milliers de langues échappent encore

Traduction automatique, des milliers de langues échappent encore

Traduction automatique, des milliers de langues échappent encore
👍

Sur les plus de sept mille langues parlées dans le monde, une centaine seulement sont couvertes par les systèmes de traduction automatique de Google ou de Microsoft. Que faire des autres, les étudier et les sauver ?

Pieter Bruegel l’Ancien, la Tour de Babel (Wikipédia)

Près de 80 ans d’histoire depuis sa naissance, la traduction automatique a fait de grands progrès. Nous l’utilisons désormais quotidiennement sans nous en rendre compte. En réalité, cependant, ces systèmes – qui sont étroitement liés à la apprentissage automatique, les l’apprentissage en profondeur et le traitement du langage naturel – ils ne couvrent qu’une petite fraction des langues parlées dans le monde. Google Traduction offre actuellement la possibilité de communiquer dans env 108 langues différentes, pendant Traducteur Bing Microsoft le couvre 70. Une goutte dans le seau si vous pensez qu’il y en a plus que dans le monde sept mille langues parlées et au moins quatre mille ont également un système d’écriture.

Pour comprendre l’état de l’art d’aujourd’hui, nous devons rembobiner les bandes de l’histoire de la traduction automatique. Au départ, il reposait sur des règles spécifiques qui permettaient traduction très limitée. Ce n’est que dans les années 90 que l’utilisation de systèmes statistiques a commencé à se répandre, ce qui a commencé à donner une certaine fiabilité au résultat du processus de traduction.

Ces systèmes reposent sur l’utilisation d’un certain quantité de données d’une langue qui permettent la correspondance entre deux langues en fonction de la quantité et des paires de phrases alignées. Le véritable tournant, récemment, a été l’application de les réseaux de neurones. « C’est à propos de systèmes prédictifsmoi qui reconstruis la façon dont le cerveau fonctionne et pense prédire les relations entre les mots, ne se limitant pas à leur concaténation linéaire« , explique un Filaire Carlo Eugeni, chercheur et professeur de traduction audiovisuelle à l’Université de Leeds.

Plus d’un milliard de personnes utilisent désormais #GoogleTranslate ! Félicitations à l’équipe pour leurs avancées techniques historiques qui ont considérablement amélioré la qualité de la traduction. Faire tomber les barrières linguistiques est une étape importante alors que nous nous efforçons de relever les défis mondiaux. https://t.co/IhztgOBL0q

– Kent Walker (@Kent_Walker) 28 avril 2021

Une question de données

Les systèmes statistiques et neuronaux fonctionnent entre deux langues, à la différence que les réseaux neuronaux améliorent la qualité en fonction des données et de leur variabilité. Traduit: plus il y a de données de divers types, mieux c’est la volonté fonctionnera traduction automatique. Le cœur du problème pour les nombreuses langues qui ne sont pas encore traduites par ces systèmes se trouve ici : le manque de données et de sources. « Il y a difficulté avec les langues avec moins de données, qui ne sont pourtant pas les moins parlées« , Eugeni poursuit : « Pensez, par exemple, à la langue tamoule (parlé dans plusieurs pays asiatiques, ndlr) : est plus parlé que l’italien, mais il n’y a pas assez de données pour garantir une traduction de qualité. « 

Le manque de données est dû à de nombreuses causes. « De nombreuses langues, par exemple, n’ont que la version orale, pensez aux langues tribales, et il n’y a pas de traces écrites. De plus, pour les langues qui ont écrit, il est encore nécessaire d’avoir le soi-disant texte parallèle, c’est-à-dire la traduction dans une autre langue, comme l’anglais», poursuit le professeur. Mais ce n’est pas le seul problème. « Pour créer un réseau de neurones il n’est pas nécessaire d’avoir une seule traduction, mais d’avoir de nombreux textes parallèles de différents types afin d’alimenter le système de traduction», ajoute Eugeni. L’exemple du tamoul revient aussi dans ce cas : il y a beaucoup de matériel, mais pas de traductions.

Le texte parallèle est donc crucial pour les réseaux de neurones, ainsi que la fiabilité de la source et la qualité des données. Le cas inverse est intéressant. Exemple: Irlandais et Maltais, langues très peu parlées par rapport à beaucoup d’autres, qui pourtant en ont une plus grande quantité de données et de bonne qualité du fait que beaucoup documentation relative à l’Union européenne il est également traduit dans ces langues. « Si les résultats ne sont pas comparables à ceux de langues comme l’anglais, l’espagnol, le français ou l’italien, le réseau de neurones pour ces langues européennes fonctionne bien mieux que des langues beaucoup plus parlées précisément parce que le système prédictif est alimenté par bonnes sources.» explique Eugeni. Qu’il suffise de dire qu’en l’espace d’une décennie, le Parlement européen produit à lui seul un ensemble de données d’environ 1,37 milliard de mots dans 23 langues. Il en va de même pour d’autres institutions comme le Parlement canadien ou les Nations Unies.

https://twitter.com/microsoftidc/status/1382219854455869443?ref_src=twsrc%5Etfw

Nouveaux horizons

Face à cette situation – de nombreuses langues parlées, mais avec des données rares et sans textes parallèles – la recherche ne s’arrête pas et n’abandonne pas. La dernière frontière s’appelle traduction automatique neuronale multilingue massive. « Il reprend le système prédictif appliqué entre deux langues avec beaucoup de données et les transferts – toujours de manière prédictive – vers une ou plusieurs langues dites faible ressource, c’est-à-dire avec peu de données et de mauvaise qualité» explique Eugeni. Un exemple pour expliquer comment cela fonctionne réseau de neurones multilingue est luxembourgeois, peu parlé et avec de très fortes variations dialectales. « Bien qu’il soit parlé par très peu – explique le professeur – dérive de l’allemand et le système de traduction fonctionne précisément parce que le réseau de neurones qui est appliqué à la traduction entre l’anglais et le luxembourgeois provient d’une langue similaire« .

Afin de dépasser la logique de travailler avec des paires de langues, il existe également d’autres projets. Comme le BBC, Iarpa, la branche de recherche des services de renseignement américains, finance des recherches pour développer un système capable de trouver, de traduire et de résumer des informations à partir de n’importe quel langage faible ressourceEt, que ce soit en texte ou en voix. Les développeurs visent à arriver à un système « Anglais-in, anglais-out« Ce qui, étant donné une requête en anglais sensible au domaine, récupérera les données pertinentes d’une grande archive multilingue et les affichera traduites.

Tous ces projets sont utiles lorsque vous devez traduire rapidement un texte ou une information – à condition que ce ne soit pas d’une importance vitale – d’une langue avec peu de données à une consolidée dans des systèmes de traduction automatique. Non seulement cela : inclure langues mineures dans ces processus signifie également les protéger et les sauver. Il existe des projets en Amérique et en Inde pour le développement de logiciels de traduction automatique spécifiquement destinés aux langues de ce type dans le but de les faire survivre, même simplement en créant des documents écrits uniquement dans des langues orales. « Au niveau de la gestion du patrimoine linguistique, la seule voie est la numérisation de la culture – souligne Eugeni – même si tout le monde n’est pas d’accord« . Comme nous le rappelle le cas des Maoris, il dit Royaume-Uni filaire, ils veulent empêcher les grandes technologies d’accéder aux données linguistiques.

Vers le langage universel ?

Alors que les équipes de recherche utilisent la technologie des réseaux neuronaux pour résoudre le problème, les modèles de réseaux neuronaux ont révolutionné traitement du langage dans les dernières années. Au lieu de simplement mémoriser des mots et des phrases, ils peuvent – en simplifiant – en apprendre le sens, aidant les utilisateurs au quotidien.

« Conceptuellement c’est une vraie révolution« , conclut Eugeni: »Le rêve de nombreux linguistes est depuis de nombreuses années – et est peut-être encore – de trouver un système linguistique universel, qui permet à n’importe qui dans le monde de se comprendre, ramenant les horloges à avant Babel. Avec les réseaux de neurones appliqués à la traduction multilingue (traduction automatique neuronale multilingue massive), il pourrait un jour traduire d’une langue vers n’importe quelle autre langue« .

De l’argument deuniversalité de la langue le linguiste bien connu en a déjà parlé Noam Chomsky en 1957. La théorie soutenait que, en tant qu’êtres humains, nous avons une capacité innée à interagir avec nos semblables. Parmi les plus sceptiques et les plus optimistes, courir après la chimère de l’universalisme pour permettre une plus grande accessibilité des systèmes de traduction pourrait être la clé d’un avenir sans barrières linguistiques.

Découvrez d’avantage plus d’articles dans nos catégories Internet.

Merci pour votre visite on espère que notre article Traduction automatique, des milliers de langues échappent encore
vous aide, n’oubliez pas de partager l’article sur Facebook, pinterest et e-mail avec les hashtags ☑️ #Traduction #automatique #des #milliers #langues #échappent #encore ☑️!

Quitter la version mobile