Tag Archive: PluriTAL


Liens lectures conseillées

liste des liens : à ,compléter

Publicités

Biocarburant !

C’est le mot  qui fera l’objet de nos recherches. Après l’abandon de nos recherches sur le verbe penser, il a fallu qu’on trouve un autre mot qui soit exploitable  pour le sujet « La vie multilingue des mots sur le web » en français et en khmer. Après avoir erré quelques heures sur le web, je tombe sur un article très intéressant au sujet d’une lycéenne cambodgienne qui avait reçu le prix du meilleur espoir scientifique d’une fondation pour un projet qu’elle avait mené sur un biocarburant à base d’huile d’un arbre que l’on trouve au Cambodge.

Le biocarburant, c’est un sujet qui est tout à fait d’actu. Avec tout ce qu’on voit autour de nous comme catastrophes écologiques ( centrale nucléaire japonaise qui fuit, bateau pétrolier échoué, j’en passe et des meilleures), ce thème fait sans aucun doute l’objet de sérieuses investigations afin de sortir notre planète de cette impasse écologique, dans le cas contraire on court droit à notre perte. Le substantif « biocarburant » est utilisé comme hyperonyme pour désigner des carburants « alternatifs » à ceux qui sont actuellement utilisés et qui provoquent une dégradation de l’environnement, de la qualité de l’air et sont responsables de la pollution et du réchauffement climatique – entre autres.

C’est un sujet universel, ce mot concerne tout le monde, dans tous les pays des forêts  cambodgiennes au Grenelle de l’environnement en passant par  les ONG qui militent pour la préservation de la planète. C’est la raison pour laquelle nous avons décidé d’étudier le substantif biocarburant pour notre projet la vie multilingue des mots sur le web.

Une petite étude lexicologique de biocarburant s’impose, elle se trouve ici.

Sam

Présentation de la langue source : le français

Ce projet multilingue nécessite une présentation préalable des deux langues de travail : le français et le khmer.

La langue source sera le français. En effet, le substantif choisi :  » bicarbuant », sera d’abord recherché en français sur des site en français puis en khmer sur des sites en khmer.

Il est nécessaire de passer par une présentation rapide de ces deux langues, de leur caractéristique générale et de leur aire de diffusion.

Le français

La francophonie

Le français appartient à la famille des langues romanes. C’est une langue qui dérive d’une certaine forme de latin tardif. C’est une langue qui l’on dit à opposition verbo-nominale. Les phrases en français se construisent suivant le schéma  SVO (sujet Verbe Objet).

On distingue en français standard un total de 37 phonèmes (voyelles et consonnes), auxquels s’ajoutent des varient régionales. Le français et la langue nationale et officielle en France ( et DOM-TOM), mais pas seulement. C’est une langue parlée sur les quatre continents avec une diffusion plus ou moins importante dans certains pays  ou régions ( Suisse Québec, Belgique, Madagascar, anciennes colonies africaines et indochinoises, etc.). Avec environ 220 millions de locuteurs dans le monde, – espace géographique appelé la Francophonie- le français est la sixième langue la plus parlée dans le monde.

Le Khmer

Le khmer est une langue appartenant au groupe des langues môn-khmères de la famille des langues austro-asiatiques. Langue des populations khmères, il est principalement parlé au Cambodge et dans les régions limitrophes de Thaïlande

par les Khmers Surin (du nord) et au Viêt-Nam par les Khmers Krom. La langue khmère ne possède pas la gamme de tons.

Il est relativement plus aisé de se débrouiller pour parler cette langue en apprenant à prononcer les mots syllabe par syllabe. La langue khmère a des règles de grammaire très simples : ni article, ni nombre, ni pronom, ni temps, ni conjugaison, ni genre.

Elle 33 consonnes et chaque consonne à son propre pied. On peut utiliser le pied d’une consonne pour  la combiner avec elle-même ou avec une autre consonne afin de former des mots.

Les 39 voyelles qui se divisent elles aussi en deux familles :

–          15 voyelles indépendantes, peu utilisées, qui se prononcent sans être liées aux consonnes, et qui possèdent généralement un sens par elles-mêmes.

Une série de 12 caractères qui se combinent avec les consonnes pour former, ces caractères se placent avant ou après, au-dessus ou au-dessous la consonne qu’elles affectent.

On aurait dû s’en douter, de l’informatique on va en manger à toutes les sauces. Ce n’est pas pour me déplaire, car je ne suis peut-être pas franchement douée pour ce « hobby », mais je m’y intéresse. En fait, je ne supporte pas de ne pas comprendre « Pourquoi ça marche pas ?!!? ». Maknie et moi sommes un peu sceptiques mais quand il faut y aller, faut y aller. Lorsqu’on a lancé le blog (le 10 octobre 2011), nous avions en tête un sujet, et toutes les questions existentielles qui vont avec. oui, parce qu’à l’époque on devait choisir un verbe. Ce qui a donné lieu à des pertes de neurones en réflexion et à quelques sueurs froide, mais heureusement ça n’a pas duré. En attendant – que ça change -, on devait tout de même nommer l’url de notre blog, et pensant bien faire et ayant choisi le verbe penser, on décide de nommer tout naturellement notre blog penserfrancokhmer.wordpress.com.

Le problème c’est qu’on a changé de sujet, c’est mauvais pour le référencement.

On rencontre un premier souci avec le blog qui refuse notre mot de passe. Pourquoi ? On ne sait pas. Donc pour pouvoir en reprendre le contrôle, il a fallu en changer.

Maintenant que le blog est créé, on réfléchit aux catégories, aux articles et à leur contenu.  On arrive à distinguer grosso modo  trois fonctionnalités : parler des problèmes rencontrés pour ce projet, exposer nos données et l’état d’avancement du projet, constituer des résumés des cours de programmation, de notre perfectionnement dans l’usage de l’outil informatique, de son langage et des lectures effectuées.

Beaucoup de travail en perspective !

Sam

D’après le prof, le Traitement Automatique des langues (du langage), c’est la mise en oeuvre d’une chaîne de traitement textuel semi-automatique, depuis la récupération des données, jusqu’à leur présentation.

Et après cela d’ajouter, qu’il ne saurait que trop nous conseiller de méditer pieusement sur un texte très instructif de Marcel Cori et Jacqueline Léon, La constitution du TAL, Etude historique des dénominations et des concepts, 2002, TAL, Vol. 43, n° 3, p. 21-55. que vous pouvez lire ici. Vous trouverez bientôt un résumé sur ce blog, il faut d’abord que je finisse de lire les 36 pages en pdf.

Voilà en quelques lignes ce qu’on étudie en Master TAL.

Sam.