Comme promis résumé de lecture de l’article de 36 pages. Un peu long mais super intéressant.
– Par Samantha –

 Auteurs : Marcel Cori et Jacqueline Léon

p.21 à 55

RÉSUMÉ. Pour désigner le champ d’investigations et d’applications à l’intersection de la linguistique, des mathématiques, de l’informatique et des sciences cognitives hérité des expériences pionnières en traduction automatique, plusieurs termes sont ou ont été en concurrence, Computational Linguistics ou Natural Language Processing dans le domaine anglo-américain, Traitement automatique des langues, Informatique linguistique ou Linguistique informatique en France. Cet article se propose, en retraçant le parcours historique de ces dénominations, de montrer que le flottement sur les termes est symptomatique des tensions à l’oeuvre dans le domaine, sur le plan des enjeux institutionnels, économiques, théoriques et conceptuels.
 

 Le TAL désigne-t-il une discipline scientifique, une technologie ou une communauté de chercheurs et d’ingénieurs ?

Le TAL gravite autour de : la linguistique, l’informatique, les mathématiques et l’intelligence artificielle.

I- Constitution du TAL à travers les termes qui l’ont désigné: perspectives théoriques et pratiques mises en jeu.

  1. A- Chronologie des termes : Américains vs. Français :

Aux USA, Memorandum, Weaver (1949) intitulé Translation est publié dans un contexte favorable au dvpt de la traduction automatique mais c’est une impasse qui laissa place au Computational Linguistic puis au Natural Language Processing.

En France, les linguistes sont sceptiques face à la TA.C’est Traitement Automatique des Langues qui s’impose.

  • La traduction automatique aux USA :

Weaver utilise le terme Computer translation et Wiener de Mechanical translation pour désigner le problème de la traduction automatique.

Weaver pose déjà les jalons de la traduction automatique en tenant compte des aspects pratiques, en soulevant le problème des ambiguïtés et de la traduction littérales. Il pose un des principaux problèmes du TAL, la fiabilité des résultats, impossibilité d’une traduction parfaite.

**Mechanical translation =>machine à traduire** : production en série de traduction automatisée.<=>Machine translation of language.

Bar-Hillel => FAHQT (full automatic high quality translation) propose une traduction assisté par ordinateur ( cf. PAO en édition). Il préconise la construction de diverses grammaires universelles et leur évaluation. article A Quasi-Arithmetic Notation for Syntactic Description  (1953).

1950’s Période de traduction et traitement automatique à l’aide de calculatrice éléctronique => dictionnaires électronique, analyseurs syntaxiques,etc.

1948-1958 : apparition des méthodes fondamentales du TAL. Les adeptes du TA sont ingénieurs, mathématiciens, etc. Pas de structuralistes, ni Chomsky.

La TA est une réponse à : une demande sociale, technologiques et aux théories linguistiques en cours.

! Bar-Hillel en 1960 dans un rapport de l’ALPAC dit que la Machine Translation 100% machine sans assistance humaine n’est pas possible et inadmissible.Arrêt des subventions.C’est alors que Machine Translation devient Computational Linguistics.

**Computational Linguistics**  fév. 1961: d’après Bar-Hillel on peut construire une machine capable de déterminer la structure de toutes les phrases d’une langue source, à condition que la syntaxe de celle-ci soit présentée formellement. Yngve structure en arbres l’information grammaticale et syntaxique(modèle chomskien sans les transformations).

1962 : Création de d’Association for Machine Translation and Computational Linguistics (AMTCL) qui deviendra Association for Computational Linguistics en 1973. Premier colloque en 1965 à N-Y.

Nouvelle discipline très subventionnée car « The tools of computational linguistics are considerably less costly than the multibillion-volt accelerators of particle physics. »

CL inclut toutes les applications de l’ordinateur à des fins de traitement de langues naturelles ou artificielles. (recherche pragmatique + recherche fondamentale). Tentative d’éviter les dérives de MT.

D’autres travaux associant langages formels et informatique ont le vent en poupe et se regroupent sous le terme Automatic (association) plus abstrait que Mechanical avec une prédominance de l’analyse syntaxique automatique comme seule méthode de TA.(années 1970)

**Natural Language Processing **: ce terme s’installe dans les années 1980,après la rencontre entre le langage et l’intelligence artificielle. Bien que dans les années 1990 Computational Linguistics reste la discipline de référence  le terme NLP s’impose.

=> NLP = réponse à une demande sociale, robustesse, rapidité, fiabilité et coût.Désormais CL est orienté recherche fondamentale et NLP application industrielle. CL subit le contraire de ce qui est arrivé à Mechanical Translation, pas assez pragmatique.

Conclusion : Aux USA, c’est la TA qui a donné naissance à ce qu’on appelle en France le Traitement Automatique des Langues.

  • Le TAL en France :

Aux USA c’est la TA qui a prédominé, en France, c’est la mécanisation du vocabulaire qui est à l’origine de la naissance du TAL.

Contexte : Essor lexicologie avec  Inventaire général de la langue française, 1936, Mario Roques, dans les année 1950 mécanisation.

Pour la TA en France création de l’association ATALA en 1959(ils ont un site internet mais ça marche pas). TA => 10 de retard par rapport aux USA.

Le terme TAL ne fait consensus que depuis les années 1990.

Les français n’aiment pas le terme américain Machine Translation, pourtant publication de »La machine à traduire » Delavenay et « La machine à traduire, histoire des problèmes linguistiques »Mounin 1964. Au CNRS les mathématiciens préfèrent « automatique ».

Donc Machine à traduire devient Traduction automatique. difficulté à établir un formalisme pour la TA. En français, Computational est remplacé par le terme « calcul« .

=> Difficulté à trouver une terminologie = difficulté à cerner la discipline. De plus, la TA commence en France alors qu’elle décline aux USA au profit de l’analyse syntaxique automatique qui n’est pas encore adoptée en France est qui, pourtant, se présnete comme melleur méthode pour la TA. Peu de linguistes acteurs de la TA.

1959 : Création du Centre de Linguistique Quantitative : haut lieu de découverte des langages formels.(formalisme, statistique et linguistique).

Computational Linguistics correspond à Grammaire Formelle.

**Linguistique appliquée **: terme consensuel.= enseignement des langues, applications de l’ordinateur au traitement des langues et TA.Ne constitue pas une discipline car terme général, ne faisant référence à aucune méthode en particulier.

Vauquois en 1967 veut une meilleur définition du TAL pour se démarquer de la statistique.(et du centre de linguistique quantitative). Il préconise la constitution d’équipes mixtes.

** Informatique Linguistique**1972 : nouveau terme mais qui crée encore plus de confusion. En 1983 le CNRS crée « les Sciences du Langage ». Tentative de donner des perspectives théoriques à « informatique linguistique » dans les années 1980.=> naissance de la notion d’arbre.

1985 : Premier cursus en linguistique informatique à l’Université Paris 7.

Officialisation du TAL : la revue d’ATALA change de nom pour TAL (1992). Une licence Sciences du langage mention TAL est créée en 1993 et une maîtrise « industrie de la langue ».

 Ctxt : Développement des technologies, de la micro-informatique.

Le TAL a bcp de difficultés à se constituer en discipline=> tensions entre les disciplines qui ont contribué à sa fondation.