Archives de l'État en Belgique

Notre mémoire à tous !

Menu

Archivage des sites web

Texte petit  Texte normal  Texte grand

Les sites Web sont un des médias les plus importants de notre époque. Tout comme d’autres archives, ils doivent donc être conservés à long terme en fonction de leur valeur historique.

Dois-je conserver et transférer les sites Web de mon organisation ?

Nous encourageons les producteurs d’archives à sauvegarder régulièrement leurs sites Web et vous aidons volontiers dans le choix de la méthode et du planning.

Projet PROMISE

La Bibliothèque royale de Belgique entend créer un archivage du web national, avec une capture annuelle de tous les sites à extension .be, donc aussi les sites Web des services publics belges (plus d’info).

Celui-ci n’existe toutefois pour l’instant que sous la forme de prototype. De plus, vu l’ampleur de l’entreprise, tous les détails des sites Web ne pourront être sauvegardés. Les Archives de l’État évaluent donc si une stratégie complémentaire est actuellement nécessaire afin de préserver les sites Web des services publics de façon régulière et qualitative.

À l’avenir, les tableaux de tri des archives fixeront quels sites Web doivent être sauvegardés et transférés et à quelle fréquence.

Quelles caractéristiques des sites Web doivent être conservées ?

Un site Web est une collection de textes, de bases de données, d’images et de contenu audiovisuel assemblés à l’aide d’un langage de balisage, à l’instar d’un collage. Une grande partie de ce contenu est toutefois déjà conservée dans votre classement ou dans votre système de gestion électronique des documents ; où elle est, par ailleurs, plus facile à gérer et donc à sa place (les bases de données seront certainement conservées séparément). Il faut donc se poser la question suivante :

Quelles informations (objets) sont ajoutées par le site Web aux niveaux du contenu, de la structure ou du fonctionnement, qui ne sont pas déjà conservées dans des fichiers séparés ?​

Cette information supplémentaire peut être :

  • des textes rédigés directement en html, sans double en pdf par exemple
  • des images provenant d’une source externe
  • des effets et des animations à valeur ajoutée (illustrant par exemple une relation entre les objets et les informations)
  • un moteur de recherche nécessaire pour pouvoir comprendre la façon dont le site est (ou a été) utilisé
  • du contenu généré par les utilisateurs, tels que des messages sur un forum, les « J’aime », des sondages, etc.
  • des informations sur les comptes d’utilisateurs

Une stratégie d’archivage ne doit pas être complexe pour autant qu’elle préserve les informations supplémentaires (et qu’elle ne duplique qu’un minimum d’informations conservées ailleurs). Une capture d’écran pourra suffire. Nous vous aiderons volontiers pour décider quelles parties de votre site Web ont une valeur historique permanente et quelle est la meilleure approche. 

De quelles manières un site Web peut-il être archivé ?

En fonction des éléments qui doivent être conservés, on peut opter pour une ou plusieurs des méthodes ci-dessous :

  1. Conservation par capture d’écran

En fonction des besoins, il peut s’agir de captures d’écran ou de capture vidéo. Il existe à cet effet des outils desktop et des extensions de navigateurs conviviaux.

Le résultat est une image ou un fichier vidéo. Il convient d’opter pour un format de fichier durable.

  • Adapté : aux sites Web dont l’aspect et la présentation doivent être principalement conservés, vu que le contenu est déjà conservé ailleurs.
  • Inadapté : aux sites Web avec beaucoup de contenu unique qui n’est pas conservé ailleurs, dont il faut garantir la qualité et/ou qu’on veut pouvoir parcourir, télécharger, diffuser, etc.
  1. Conservation par extraction (« client-side scraping »)

À cet effet, on a recours à une extension de navigateur, comme par exemple ArchiveWeb.page, qui sauvegardera le site Web comme une vidéo qui enregistre les pages elles-mêmes au lieu d’une image de celles-ci. De cette façon, il sera possible de mener des recherches dans le texte, de copier des images, etc. comme si le site était toujours en ligne. C’est une méthode relativement simple permettant de capter de nombreuses caractéristiques du site. À noter toutefois que seuls les hyperliens qui ont été consultés lors de l’enregistrement seront actifs, ce qui fait que cette méthode demande beaucoup de travail notamment pour des sites Web volumineux.

Le résultat sera un fichier à extension warc (ou wacz) qui pourra être lu sur divers sites ou à l’aide d’outils desktop.

  • Adapté : aux sites que l’on veut conserver tels qu’ils sont vus par les utilisateurs, avec une page de connexion et/ou des éléments dynamiques requérant une action de l’utilisateur et que les robots d’indexation entièrement automatiques ne savent pas contourner.
  • Inadapté : aux sites avec beaucoup de niveaux et de liens.
  1. Conservation via un robot d’indexation (« web crawling »)

Les robots d’indexation sont des programmes qui enregistrent un instantané d’un site Web. Ils sont rapides et automatiques, mais ne conviennent pas pour capter les éléments dynamiques requérant une action de l’utilisateur. Les robots d’indexation les plus communs sont HeritrixBrowsertrix et HTTrack (moins avancé mais plus convivial que les autres grâce à son interface graphique). Ils sont tous les trois disponibles en libre accès.

Le résultat sera un fichier à extension warc (ou arc), comme chez Heritrix, ou un ensemble de fichiers reflétant les fichiers sources et leurs relations, comme chez HTTrack.

  • Adapté : à l’enregistrement d’un ou plusieurs sites Web sans trop de travail manuel.
  • Inadapté : aux sites Web avec beaucoup de contenu dynamique ou avec une grande partie du contenu cachée derrière une page de connexion.
  1. Conservation du code source

Avec cette méthode, on ne sauvegarde pas le site Web à partir d’internet mais on archive l’entièreté des codes sources, comme on le ferait avec d’autres archives numériques. Seul l’auteur du site web peut donc appliquer cette méthode. Elle n’est toutefois pas appropriée pour enregistrer les saisies des utilisateurs et le site Web ne peut être consulté que tant que le langage de programmation et les codes sources sont lisibles.

  • Adapté : aux sites Web complexes, avec beaucoup de contenu unique qui n’est pas conservé ailleurs dans l’institution.
  • Inadapté : aux sites Web dépendant de beaucoup d’éléments externes (par exemple ayant recours à des bases de données externes) ou de contenu généré par les utilisateurs.

Nous examinerons volontiers avec vous quelles sont les meilleures options.

Combien de fois faut-il sauvegarder un site Web ?

Les sites Web du gouvernement à valeur patrimoniale devraient être sauvegardés au moins une fois par an ainsi qu’avant et après toute modification importante.

Qui est responsable ?

Un dialogue sur la méthode d’archivage appropriée peut être engagé entre le(s) responsable(s) de l’information, les gestionnaires des sites Web à archiver, et les Archives de l’État.

Question ou remarque ?

Contactez-nous.

www.belspo.be www.belgium.be e-Procurement