Information numérique
Introduction
Ce qu'en dit le programme...
Les données constituent la matière première de toute activité numérique. Afin de permettre leur réutilisation, il est nécessaire de les conserver de manière persistante. Les structurer correctement garantit que l’on puisse les exploiter facilement pour produire de l’information. Cependant, les données non structurées peuvent aussi être exploitées, par exemple par les moteurs de recherche.
Les premières machines automatiques...
Les automates sont des machines conçues pour réaliser des tâches prédéfinies. Les exemples les plus connus sont les personnages semblant écrire automatiquement.
Ces appareils ne peuvent pas faire autre chose que ce pour quoi ils ont été prévu, ils répéteront inlassablement les mêmes mouvements. Comment fabriquer une machine qui pourrait changer de façon de faire à la demande, en fonction d'informations qu'on lui fournirait au fur et à mesure ?
Pas besoin d'imaginer un dispositif électronique à ce stade ! Vous avez peut-être déjà rencontré un instrument de musique capable de cette de prouesse : l'orgue de barbarie
Il est en revanche moins probable que vous ayez rencontré son alter ego industriel, capable de tisser n'importe quel motif sur un tissu en fonction des informations fournies : le métier Jacquart, inventé par Joseph Marie Jacquart en 1801.
Le code binaire, la base de l'informatique
Par Inconnu — turingarchive.org — Domaine public
Alan Turing à 16 ans
Quel est le point commun visible entre l'orgue de barbarie et le métier Jacquart ?
Les feuilles perforées : ce sont elles qui contiennent l'information. Un trou dans la feuille à un endroit précis active une commande prédéterminée : une certaine note pour l'orgue, la montée ou non de l'aiguille pour le métier Jacquart. Chaque mouvement ou son est prédéterminé, en ce sens, ces machines ne sont que des automates. En revanche, l'ordre dans lequel ces mouvements vont se faire peut être modifié à l'envie, en fonction du motif imprimé sur la feuille : les perforations de la feuille constituent le programme de la machine !
Alan Turing va généraliser le concept de ces machine et proposer le modèle de la machine de Turing. Il va notamment montrer qu'une telle machine est capable de réaliser n'importe quel calcul ou d'executer n'importe quel programme. En ce sens, elle est équivalente à nos ordinateurs modernes
On peut considérer que les feuilles perforées contiennent 2 valeurs : 0 quand il n'y a pas de trou et 1 le cas échéant : il se trouve que l'on peut écrire n'importe quel nombre entier à l'aide de 0 et de 1 : c'est la notation binaire ou base 2.
Nous utilisons habituellement la base 10 ou notation décimale, son écriture nous semble naturelle car elle nous est apprise dès la maternelle, elle n'est pas si simple !
15 836 en notation décimal signifie que l'on a 1x10 000 + 5x1 000 + 8x100 + 3x10 + 6x1
= 1x104 + 5x103 + 8x102 + 3x101 + 6x100
On décompose donc 15 836 en une somme de différentes puissances de 10. Rien n'empèche de décomposer les nombres en sommes de puissances d'autre chose que 10, et c'est là qu'intervient le binaire où l'on va décomposer un nombre en une somme de puissances de 2
Ainsi 15836 (en notation décimale) se décompose en :
15836 = 1x213+1x212+1x211+1x210+0x29+1x28+1x27+1x26+0x25+1x24+1x23+1x22+0x21+0x20 (ouf !)
La notation binaire de 15836 est donc 11110111011100 : ce nombre (beaucoup plus difficile à lire pour un humain) est facilement programmable : puisqu'il suffit de faire un trou dans une feuille pour représenter 1 et pas de trou pour 0.
Le binaire étant difficile à lire et le décimal difficile à convertir directement en binaire, une autre base est utilisée en informatique : l'hexadécimal. Cette base correspond à la décomposition des nombres en multiples de 16 et contient donc 16 chiffres : 0,1,2,...,8,9,A,B,C,D,E,F.
le A hexadécimal correspond donc à 10 en écriture décimale et le F hexadécimal à 15 en décimal. Le 10 hexadécimal vaut donc 1x161+0x160=16.
Le nombre hexadécimal A2 = 10x161+2x160 = 162
Conversion de bases
Exemples : Entrez les nombres que vous souhaitez et regardez la conversion- En décimal,
donne en binaire xxx
et en hexadécimal xxx
- En binaire,
donne en hexadecimal xxx
et en décimal xxx
- En hexadécimal,
donne en binaire xxx
et en décimal xxx
Le stockage des données
La capacité de stockage de ces dispositifs se mesure au nombre de 0 et de 1 que l'on peut mémoriser. Chaque 0 ou 1 est appelé bit. On regroupe généralement ces bits par groupes de 8 : un octet (ou byte -prononcé "baïte"- en anglais).
Medium | taille | capacité de stockage (bits) | capacité de stockage (unité commune) |
Carte perforée | 20cm x 10cm | 1000 b | 1 kb = 125 o |
Bande magnétique (années 50) | rouleau de 730m | 11 520 000 b | 11,5 Mb = 1.4 Mo |
Premier disque dur (1956) | 1.5m x 1.7m x 74 cm, 1 tonne | 30 000 000 b | 3.75 Mo |
disquette 3 pouces 1/2 | 8.9cm x 9.3cm | 11 500 000 b | 1.44 Mo |
CD-rom | 12cm | 5 200 000 000 b | 650 Mo |
DVD-rom | 12cm | 37 600 000 000 b | 4.7 Go |
Blu-ray | 12cm | 240 000 000 000 b | 30 Go |
disque dur actuel 2.5 pouces | 7cm x 10cm | 8 000 000 000 000 b | 1 To |
carte micro SD | 1.1cm x 1.5cm x 1mm | 1 600 000 000 000 b | 200 Go |
Capacités de stockage
- Au début des années 1990, les jeux et logiciels étaient vendu sous forme de disquettes 3 pouces 1/2 (ici le jeu DOOM II par exemple). Le jeu Fortnite® "pèse" environ 20Go.
Combien de disquettes auraient été nécessaires ? - Le disque dur IBM350 "Ramac" était vu comme une révolution avec sa capacité de stockage de 3.75Mo.
- (facile) : combien de disques dur IBM350 auraient la même capacité de stockage qu'une carte micro SD ? - (dur) : Si on remplissait le volume d'un IBM350 de cartes micro SD : à quelle capacité de stockage cela correspondrait ? - Recherche internet : actuellement les ordinateurs contiennent des mémoires de stockage dites SSD et d'autres dites HDD. Rechercher les avantages et les inconvénients de chacune.
Comment stocker du texte dans un ordinateur ?
Voir l'activité correspondante
Encoder un texte
Entrez un texte :Le code décimal des caractères que vous avez entrés est : ___.
Le code binaire des caractères que vous avez entrés est : ___.
Le code hexadécimal des caractères que vous avez entrés est : ___.
Décoder un texte
Entrez votre code en décimal (séparer les valeurs par un espace) :Entrez votre code en hexadécimal (séparer les valeurs par un espace) :
Entrez votre code en binaire (séparer les groupes d'octets par un espace) :
Les caractères correspondants sont : .
Repères historiques
Ce qu'en dit le programme...
- 1930 : utilisation des cartes perforées, premier support de stockage de données ;
- 1956 : invention du disque dur permettant de stocker de plus grandes quantités de données, avec un accès de plus en plus rapide ;
- 1970 : invention du modèle relationnel (E. L. Codd) pour la structuration et l’indexation des bases de données ;
- 1979 : création du premier tableur, VisiCalc ;
- 2009 : Open Government Initiative du président Obama ;
- 2013 : charte du G8 pour l’ouverture des données publiques.
Les données et l’information
Ce qu'en dit le programme...
Une donnée est une valeur décrivant un objet, une personne, un événement digne d’intérêt pour celui qui choisit de la conserver. Par exemple, le numéro de téléphone d’un contact est une donnée. Plusieurs descripteurs peuvent être utiles pour décrire un même objet (par exemple des descripteurs permettant de caractériser un contact : nom, prénom, adresse et numéro de téléphone).
Une collection regroupe des objets partageant les mêmes descripteurs (par exemple, la collection des contacts d’un carnet d’adresses). La structure de table permet de présenter une collection : les objets en ligne, les descripteurs en colonne et les données à l’intersection. Les données sont alors dites structurées.
Pour assurer la persistance des données, ces dernières sont stockées dans des fichiers. Le format CSV (Comma Separated Values, les données avec des séparateurs) est un format de fichier simple permettant d’enregistrer une table. À tout fichier sont associées des métadonnées qui permettent d’en décrire le contenu. Ces métadonnées varient selon le type de fichier (date et coordonnées de géolocalisation d’une photographie, auteur et titre d’un fichier texte, etc.).
Les données comme les métadonnées peuvent être capturées et enregistrées par un dispositif matériel ou bien renseignées par un humain. Elles sont de différents types (numériques, textes, dates) et peuvent être traitées différemment (calcul, tri, affichage, etc.). Certaines collections typiques sont utilisées dans des applications et des formats standardisés leur sont associés : par exemple le format ouvert vCard (extension .vfc) pour une collection de contacts.
Une base de données regroupe plusieurs collections de données reliées entre elles. Par exemple, la base de données d’une bibliothèque conserve les données sur les livres, les abonnés et les emprunts effectués.
Les algorithmes et les programmes
Ce qu'en dit le programme...
La recherche dans des données structurées a d’abord été effectuée selon une indexation préalable faite par l’homme. Des algorithmes ont ensuite permis d’automatiser l’indexation à partir de textes, d’images ou de sons.
Une table de données peut faire l’objet de différentes opérations : rechercher une information précise dans la collection, trier la collection sur une ou plusieurs propriétés, filtrer la collection selon un ou plusieurs tests sur les valeurs des descripteurs, effectuer des calculs, mettre en forme les informations produites pour une visualisation par les utilisateurs. La recherche dans une base comportant plusieurs collections peut aussi croiser des collections différentes sur un descripteur commun ou comparable.
Les machines
Ce qu'en dit le programme...
Les fichiers de données sont stockés sur des supports de stockage : internes (disque dur ou SSD) ou externes (disque, clé USB), locaux ou distants (cloud). Ces supports pouvant subir des dommages entraînant des altérations ou des destructions des données, il est nécessaire de réaliser des sauvegardes.
Des recherches dans les fichiers se font à l’intérieur même des ordinateurs, soit sur la base de leurs métadonnées, soit sur la base d’une indexation (à la manière des moteurs de recherche sur le Web).
Les grandes bases de données sont souvent implémentées sur des serveurs dédiés (machines puissantes avec une importante capacité de stockage sur disques). Ces centres de données doivent être alimentés en électricité et maintenus à des températures suffisamment basses pour fonctionner correctement.
Impacts sur les pratiques humaines
Ce qu'en dit le programme...
L’évolution des capacités de stockage, de traitement et de diffusion des données fait qu’on assiste aujourd’hui à un phénomène de surabondance des données et au développement de nouveaux algorithmes capables de les exploiter.
L’exploitation de données massives (Big Data) est en plein essor dans des domaines aussi variés que les sciences, la santé ou encore l’économie. Les conséquences sociétales sont nombreuses tant en termes de démocratie, de surveillance de masse ou encore d’exploitation des données personnelles.
Certaines de ces données sont dites ouvertes (OpenData), leurs producteurs considérant qu’il s’agit d’un bien commun. Mais on assiste aussi au développement d’un marché de la donnée où des entreprises collectent et revendent des données sans transparence pour les usagers. D’où l’importance d’un cadre juridique permettant de protéger les usagers, préoccupation à laquelle répond le règlement général sur la protection des données (RGPD).
Les centres de données (datacenter) stockent des serveurs mettant à disposition les données et des applications les exploitant. Leur fonctionnement nécessite des ressources (en eau pour le refroidissement des machines, en électricité pour leur fonctionnement, en métaux rares pour leur fabrication) et génère de la pollution (manipulation de substances dangereuses lors de la fabrication, de la destruction ou du recyclage). De ce fait, les usages numériques doivent être pensés de façon à limiter la transformation des écosystèmes (notamment le réchauffement climatique) et à protéger la santé humaine.