Par Samantha – prise de note en live

La balise <meta>;

très importante à renseigner. Lorsqu’on écrit la page, il faut enregistrer le document écrit sous notepade++ il faut l’enregistrer en UTF-8 et préciser dans la balise meta « content » UTF-8.

Lorsqu’on écrit une page dans quel encodage est-on ?

Utiliser la commande FILE

file(espace) -i nom du fichier : cette commande nous donne en quel charset on a écrit.

Toujours se demander dans quel encodage on écrit et comment le repérer.

Il y a une commande qui permet de convertir un encodage dans un autre : iconv

Ce n’est pas parce qu’on dit UTF-8 dans la balise méta que l’on est dans un encodage UTF-8

TOUT CE QUI DEVRA ETRE GENERE DEVRA ETRE CODE EN UTF-8 !

Commande Unix qui permet de savoir dans quel encodage on est  et aussi la localisation: locale

Schéma représentant la chaîne de traitement :

EXPLICATION :

extraction des URL : si la page est en UTF-8 on pourra extraire la page en utilisant la commande lynx.

si la page de l’url n’est pas codée en UTF-8 : il faudra trouver dans quel code est faite la page, la changer en UTF-8.

Bloucle : for > pour chaque éléments du tableau passage par l’encodage et traitement.

Un traitement supplémentaire pour compter les mots de la page de chaque url.

Le traitement doit être capable de construire des tableaux de tel sorte que pour chaque url le lien pointe vers la page, et montre quelle est son encodage.