Category: Traitement automatique


par Samantha
 

Big problem is watching you

Depuis plusieurs semaines, je perds des neurones sur de script. Je n’ai rien publié depuis car je voulais arriver à emboîter toutes les commandes sur un même script pour pouvoir l’exécuter. Le problème (un parmi tant d’autres), c’est que lorsque je curl maintenantla commande curl ne me donne que des erreurs => retour curl = 23 et ce pour toutes les lignes.

Ceci m’empêche d’effectuer le reste du traitement.

Pourtant mon script à l’air complet :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

par Samantha
 

Objectifs :

1. Utiliser le script fait-tableau version 2 utilisé la semaine dernière en cours et y apporter les modifications nécessaires pour que celui-ci soit adapter à notre travail.

2. Aux tableaux obtenus grâce au script fait-tableau-version2, il faudra ajouter une colonne supplémentaire pour les pages aspirées correspondantes. De plus il faudra également modifier le script pour pouvoir visualiser les erreurs.

Avant toute chose il faut donne la description des commandes : CURL et WGET.

Wget : sur mon terminal in english of course. Cette commande doit(peut) être suivie d’une option et doit être suivie d’une URL. Elle permet de télécharger à partir du web des données non intéractives. en fait elle permet d’extraire du web le contenu de certaines pages et cela se fait automatiquement tout seul. wget –  r permet de récupérer tous les liens en aspirants toutes l’arborescence du site alors que curl ne peut pas faire ça car il n’aspire que d’url en url . Pour wget on peut même signaler la longueur de l’arborescence que l’on veut aspirer.

Curl : n’existe pas dans les commandes disponibles sur mon terminal, je dois chercher sur le net pour pouvoir l’installer sur mon terminal.Je tape « sudo apt-get install curl » et la commande est installée. Dans le manuel : curl sert à transeférer une Url. elle est suivie d’une option et de l’url en question.

1. Le script ci-dessous et celui qui a été utilisé au cours du 9 novembre, il y figure les modifications permettant de travailler directement sur le répertoire contenant les urls et cela sans avoir à les mentionner, grâce à la commande READ.

Le script fonctionne très bien sur la machine de la fac, on obtient un tableau pour chaque fichier d’urls et ans chaque tableau, une cellule contentant  un numéro en face de chaque cellule de liens cliquable.

Cependant après avoir tout essayé, le script modifié ne fonctionne pas sur ma machine, on obtient trop de tableaux (4) et ils ne sont pas numérotés correctement. Ils sont tous numérotés 1 et idem pour les liens.

Je pense que c’est un problème de variable mais j’ignore lequel.

Par Samantha

Phase 1 du projet : faire un tableau html avec les url collectés de manière semi-automatique grâce  à un script :

Voici le script que j’ai récupéré sur le site plurital et que j’ai modifié pour qu’il soit adapté à mon environnement de travail.

Maintenant j’essaie de l’exécuter sur le terminal pour voir s’il n’y a pas d’erreurs et si la boucle se met en marche.

Résultats :

Apparemment tout allait bien jusqu’à ce qu’apparaisse cette ligne

« cat: url-biocarburant-francais.txt : Aucun fichier de ce type »

Je ne comprends ce qui se passe car le fichier url existe bien et il est enregistré dans le répertoire URLS. J’ai pris la précaution de l’enregistrer avec gedit.

Que faire ?

génial! Merci pour l’aide

Résultat :

La suite avec les url en khmer.

Comme je n’ai pas encore réfléchi à Comment faire en sorte que les deux fichiers d’url soit traités d’un seul coup, je vais juste faire la même chose une deuxième fois pour le deuxième fichier.

C’est parti, on lance le script…

Résultat, zut j’ai oublié que je n’ai pas ubuntu. C’est Maknie qui le fera ou alors je le ferai avant mercredi prochain.

Traitement des données : biocarburant

D’après le prof, le Traitement Automatique des langues (du langage), c’est la mise en oeuvre d’une chaîne de traitement textuel semi-automatique, depuis la récupération des données, jusqu’à leur présentation.

Et après cela d’ajouter, qu’il ne saurait que trop nous conseiller de méditer pieusement sur un texte très instructif de Marcel Cori et Jacqueline Léon, La constitution du TAL, Etude historique des dénominations et des concepts, 2002, TAL, Vol. 43, n° 3, p. 21-55. que vous pouvez lire ici. Vous trouverez bientôt un résumé sur ce blog, il faut d’abord que je finisse de lire les 36 pages en pdf.

Voilà en quelques lignes ce qu’on étudie en Master TAL.

Sam.