Archives de l'État en Belgique

Notre mémoire à tous !

Menu

Projet Promise : stratégie de préservation du web belge

Texte petit  Texte normal  Texte grand

Contenu

Le web constitue un moyen de communication essentiel, ce qui le rend très précieux dans une perspective patrimoniale. La conservation du contenu informationnel de ce media n’a pourtant pas fait l’objet de beaucoup d’attention jusqu’à ce jour. En comparaison avec d’autres pays européens, où les archives et bibliothèques nationales s’appliquent depuis de nombreuses années à mettre en œuvre l’archivage du web, la Belgique accuse un retard considérable en la matière. Les Archives de l’État et la Bibliothèque royale de Belgique ont décidé de relever ce défi ensemble. Le projet de recherche Preserving Online Multiple Information : towards a Belgian strategy (PROMISE) se donne pour objectif d’élaborer une stratégie fédérale de préservation du web belge.

Le projet entend d’abord identifier les bonnes pratiques internationales en matière d’archivage du web et sur base de ses résultats, envisage d’élaborer une stratégie d’archivage du web en Belgique, au niveau fédéral. Les partenaires du projet établiront une politique et détermineront une méthodologie en vue d’évaluer et de sélectionner le contenu numérique à archiver. Ils étudieront aussi le cadre légal et réglementaire en Belgique. Ensuite, l’équipe de recherche mettra en place un projet pilote visant à archiver les sites web belges et à rendre accessibles ces nouvelles collections.

Les compétences des Archives de l’État sont définies - et limitées - par la loi sur les archives. En application de ce cadre légal, un site web peut être considéré comme une archive, étant donné qu’il est constitué par un ensemble de documents/de données créés dans le cadre des activités d’un certain producteur d’archives. Les activités d’archivage du web de la Bibliothèque royale de Belgique, quant à elles, s’inscrivent dans la législation relative au dépôt légal. Dans ce contexte, les sites web sont considérés comme des publications. Dans le cadre du projet PROMISE, des recommandations seront formulées en vue d’élargir la loi sur le dépôt légal et d’y intégrer l’archivage du web.

Le projet a été lancé le 1er juillet 2017 et prendra fin en décembre 2019.

Promisebot

Promisebot est le web crawler ou spider utilisé dans le cadre du projet Promise. Promisebot lance l’archivage des sites web sur base d’une liste d’URL de pages web. Lorsque Promisebot visite ces pages, il détecte des liens (SRC et HREF) qu’il ajoute à la liste de pages à archiver. Promisebot s’identifie dans l’entête de requête HTTP User-Agent dont la valeur est la suivante : “Mozilla/5.0(compatible; promisebot/1.0 +https://www.kbr.be/en/promise-project)”.
Promisebot utilise ces adresses IP et noms d’hôtes :

  • 91.121.67.124 - ns301053.ip-91-121-67.eu
  • 172.18.16.11 - ea06c202.private.ugent.be
  • 193.191.148.229 - promise.ilabt.imec.be

Si vous détectez un comportement inattendu, veuillez nous contacter par e-mail en indiquant l’User-Agent complet et, si possible, l’adresse IP.  Afin d’éviter que Promisebot ne surcharge les serveurs du web, il ne devrait pas accéder à un serveur plus d’une fois toutes les quelques secondes. En raison des retards du réseau, il se peut que cela soit temporairement un peu plus long. Promisebot respecte le fichier robots.txt, que vous pouvez utiliser pour autoriser ou refuser l’accès à (certaines parties de) votre site web, ou pour modifier la fréquence des requêtes.

Partenaires

Financé par le SPP Politique scientifique (Belspo) dans le cadre du programme BRAIN, le projet réunit les Archives de l’État (Service Préservation et Accès numériques), la Bibliothèque royale de Belgique, les Universités de Gand (Research Group for Media, Innovation and Communication Technologies et Ghent Centre for Digital Humanities) et de Namur (Research Centre on Information, Law & Society) ainsi que la Haute Ecole Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l’Information et de la Documentation).

Collaborateurs

Actualités

Lorsqu'une page internet n'est plus disponible, apparaît le code 404 HTTP. Si une telle situation peut causer des frustrations, elle dénote aussi un problème sous-jacent, à savoir que de très nombreuses informations intéressantes se perdent quotidiennement sur internet. Les partenaires du projet de recherche Promise se sont penchés sur cette problématique. Le projet vise à développer une stratégie fédérale pour la conservation de la toile belge.

Partagez votre opinion sur l’archivage des sites internet

Internet fait désormais partie intégrante de notre quotidien. Mais difficile pour les historiens de demain d'avoir un aperçu de l'époque actuelle s’ils ne disposent pas de sites internet archivés. De plus en plus d’établissements patrimoniaux produisent désormais de telles archives. Le projet de recherche Promise, auquel participent également les Archives de l’État, souhaite sonder les besoins des utilisateurs de sites internet archivés. Dites-nous comment vous souhaiteriez consulter et utiliser ce type de sources à l’avenir en participant à l’enquête (5-10 min) !

Partager cette page :
www.belspo.be www.belgium.be e-Procurement