4.4 KiB
TP1 Encodage binaire vers texte (1h30)
Nous partitionnons classiquement en informatique les fichiers entre fichiers textes et fichiers binaires. Les fichiers texte contiennent uniquement des caractères (essentiellement des lettres minuscules, majuscules, chiffres et ponctuations, on parle souvent de texte brut) ; les fichiers binaires sont le reste des fichiers (ie, ceux qui ne sont pas du texte). Comme, évidemment, tout ceci n'est composé que de 0 et de 1, la réalité est un peu plus complexe mais cette simplification nous suffira pour aujourd'hui.
Dans ce TP, vous allez concevoir et analyser un système d'encodage du binaire vers du "texte", ainsi que le décodage associé.
Si vous souhaitez approfondir les notions après le TD, les pages Wikipedia associées : fichier texte, fichier binaire, conversion binaire/texte.
Ce TP est à réaliser en binôme. Un compte-rendu devra être déposé sur Moodle, en format PDF uniquement. Un seul compte-rendu par binôme suffira (pensez bien à mettre les 2 noms sur le document !)
Mais pourquoi donc ?
Nous avons vu en cours l'exemple du mail (format MIME). L'usage est en fait plus général. D'une donnée binaire (rentrent dans ce cadre : une photo, un son, une vidéo, un document de traitement de texte, un programme, ...), il peut être nécessaire de la transmettre sur un canal qui a été conçu pour faire communiquer des humain·es, et n'est donc adapté qu'à échanger du texte brut : un e-mail, un document papier, ...
Le second objectif est de faire un premier pas dans la logique des encodages/décodages que vous allez souvent rencontrer en informatique : il faut comprendre que c'est notre solution pour représenter (et donc stocker/transmettre) des informations plus expressives que '0' et '1'; et il faut aussi découvrir qu'il existe généralement plusieurs encodages utilisés pour un même problème (souvent incompatibles).
Encodage
Votre ensemble de départ sera des octets (des groupes de 8 bits), ce qui est l'élément de base utilisé par un ordinateur. Un octet étant composé de 8 bits pouvant prendre chacun la valeur 0 ou 1, un octet peut prendre 28=255 valeurs différentes (ce qui fait plus que le nombre de caractères disponibles, il faudra donc plusieurs caractères pour encoder un octet).
Question 1 : Définissez un ensemble d'arrivée parmi des caractères texte.
Question 2 : Définissez le mécanisme permettant de passer d'une suite d'octets de votre ensemble d'entrée à une suite de caractères de votre ensemble d'arrivée.
Transmission sur un canal texte
Encodez à la main un fichier binaire court quelconque (quelques octets), écrivez le sur un papier et donnez le à un autre binôme du groupe. Arrangez-vous pour que chaque binôme reçoive un message.
Décodage
Question 3 : Le destinataire sait-il décoder votre message ?
(Pas) Bravo, vous venez de créer plusieurs systèmes d'encodage différents et non compatibles, comme l'ont fait les différents acteurs de l'informatique avec le temps !
Question 4 : Écrivez une spécification pour décoder.
Transmettez maintenant au destinataire, sur papier et sans discussion de vive voix ensuite, cette spécification.
Si le décodage est réussi, bravo, vous avez écrit une spécification suffisamment claire et complète pour votre interlocuteur. L'écriture de spécifications complètes et non ambiguës est un exercice difficile que doit savoir faire un développeur.
Efficacité
Lors d'un transfert du texte par un moyen électronique, les caractères seront au final ré-encodés en binaire. Nous considérerons que chaque caractère occupera 1 octet (ce qui, en pratique, sera le cas en général si vous avez choisi des caractères "simples").
Question 5 : Pour un fichier original binaire de x octets, combient d'octets occupera sa conversion texte selon votre mécanisme ?
Bonus : Base64
L'encodage binaire->texte le plus couramment utilisé est le Base64, dont vous trouverez la description ici.
Question 6 : Refaîtes l'encodage et le décodage de votre message en Base64
Question 7 : Quelle est l'efficacité de Base64 ?