par Samantha
 
 

Le retour curl donne 0 :

la commande a fonctionné, cependant, il y a des pages qui ne sont pas disponibles. on obtient des messages tels que « bad request », « oops! » « pages indisponibles ». Les serveurs ne veulent pas nous laisser aspirer les pages.

Il faudra s’assurer d’avoir un résultat et qu’on a récupérer un fichier existant. Il faut vérifier que le fichier contient toujours l’occurrence.

Il faut poser une condition if le code retour est égal à 0 et if le fichier contient bien l’occurrence du mot.

La commande Lynx :

On souhaite ajouter une commande supplémentaire pour ne garder que le contenu textuel de la page car curl récupère tout le codage html, on ne veut garder que le contenu textuel.

Lynx une commande unix qui est en fait un navigateur Web en ligne de commande comme firefox, internet explorer ou autre.Ce qui nous intéresse c’est une option qui s’appelle -dump pour duper, filtrer le text, il s’agit de filtrer le contenu textuel de l’url associé.

lynx-dump http://monsite.org

Il mémorise tous les liens présents dans la page en les numérotant entre crochets, et donne à la fin à quoi correspond le lien. L’option qui permet de ne pas avoir ces liens : -nolist, cela correspond mieux à ce qu’on recherche.

 

Il faut que toutes les sorties produites soient en UTF-8.  Il faut s’assurer que la page est dans le bon code, comment déterminer l’encodage de la pages aspirée.

Si c’est de l’UTF8 : alors on peut faire une extraction et le contenu sera maintenu.

si ce n’est pas de l’UTF alors il faut reconnaitre l’encodage de la page, éventuellement utiliser lynx pour voir la page et convertir la page en utf8. Il faut déterminer le charset de fichier en sortie

-display_charset (permet de spécifier dans quel encodage sera le lynx – dump.

-displpay_charset=UTF-8 permettra de récupérer une page en UTF8. Si la page est en UTF : lynx -dump -display_charset=UTF8

si la page n’est pas UTF8  il faut essayer de détecter l’encodage de la page.on précise les options de lynx -display_charset=UTF8 et ensuite en sortie convertir la page en UTF8. (voir option)

 

Comment connaître l’encodage d’une page ?

Commande : file  avec l’option -i file-i truc.html

Il nous faut connaître l’encodage de départ et l’encodage de sortie pour faire la conversion. Bien sûr on ne doit pas faire les traitement pour les pages qui ne donne sur rien.

 

à faire : Modifier le script pour :

1- si le retour curl nous donne une page qui ne donne sur rien, mettre en place une condition if pour que seule les pages existantes soient traitées.

2-  Insérer une colonne pour signaler le codage de départ du texte aspiré.

Tester si ce n’est pas en UTF8 convertir en UTF8 els