Encodage du texte – petit test

Première heure : encodage du texte

Reprise du cours : Représentation des données (8)

IV. Et le texte ?

Correction de l’encodage du texte « Quelle tête à claque, cet énergumène ! »

cm 2020-01-13 NSI codage texte

On a utilisé un tableur. Les formules « recopiées vers le bas » sont, par exemple :

  • =CODE(A1) en B1
  • =DECBIN(B1) en C1
  • =DECHEX(B1) en D1

En jaune les codes décimaux supérieurs ou égaux à 128 qui nécessitent 8 bits donc un octet complet pour leur encodage binaire.

On parle d’ASCII étendu, ici de la norme ISO 8859-1, dont le nom complet est ISO/CEI 8859-1, et qui est souvent appelée Latin-1 ou Europe occidentale (wikipedia).

Le codage hexadécimal est intéressant car il permet par exemple de mettre les 256 codes possibles sur un octet dans un tableau à double entrée comme celui-ci, issu de la même page wikipedia :

cm 2020-01-13 NSI tableau ISO8899-1 wikipedia

En pratique, tous les systèmes évoluent vers une norme unifiée pour « tout caractère de n’importe quel système d’écriture (un nom et un identifiant numérique) » : l’Unicode.

La norme UTF-8 est d’un usage de plus en plus courant sur Internet, et dans les systèmes devant échanger de l’information. C’est une norme rétro-compatible avec l’ASCII initial.

Tous les caractères du « répertoire universel de caractères codés » devant avoir un identifiant unique, un octet ne suffit pas !

Par exemple, le symbole est codé 8364 !

Codons 8364 en binaire : 10000010101100. Il faut non pas 1, non pas 2, non pas 3 mais bien … 14 bits !

L’UTF-8 : de 1 à 4 octets

cm 2020-01-13 NSI utf8

Pour le symbole , codé 8364 donc 10000010101100 , il faut 14 bits donc 3 octets :

11100010     10000010     10101100    soit      E2   82   AC

Exercice : coder en UTF8 (binaire) le é codé 233

cm 2020-01-13 NSI texte iso ou utf-8 capture GHex.png

Ci-dessus le texte enregistré en latin-1 puis en UTF-8. Notez que l’UTF-8 demande plus de place ! C’est le prix de l’universalité. Les caractères ASCII restent identiques.

Exercices :

Question 1 :

  • Combien de caractères différents peut on coder en UTF-8 ?

Question 2 :

On a la séquence de huit octets suivante :

C3 A9 6C C3 A8 76 65 73

où chaque octet est représenté par deux chiffres hexadécimaux.

  • Si on considère que c’est en latin-1, décoder la séquence.
  • Idem en UTF-8.
  • Verdict ?

Ces exercices sont à faire pour lundi prochain.


Deuxième heure – test :

Les élèves qui terminent à l’avance peuvent commencer les exercices donnés en première heure ou continuer le TP de mercredi dernier (touches du clavier et fond) !

2 réflexions au sujet de « Encodage du texte – petit test »

  1. Bonsoir monsieur,
    Petite erreur dans le corrigé du contrôle que vous avez posté,
    dans l’exercice 3, 14 en hexadécimal est égal à ‘E’ non pas à ‘D’ me semble-t-il.
    Bonne soirée à vous en espérant votre rétablissement très prochainement.

N'hésitez-pas à poser une question, ou faire avancer le schmilblick

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.