maandag, november 05, 2007

Datasharing en re-use at CERN

Tijdens de conferentie Tools & Trends bij de KB gaf Salvatore Mele (CERN) een lezing over: Preservation and reuse of high-energy Physics data


De presentatie van Salvatore richt zich op een drietal onderdelen: HEP en de data, wat is nou precies het probleem en welke stappen kunnen we nemen om het probleem op te lossen.
CERN is een groot onderzoeksinstituut met 2500 stafleden en zo’n 8000 gebruikers. CERN heeft een zeer grote digitale bibliotheek (miljoen objecten). Groot aantal innovaties zijn bij CERN begonnen (internet). De experimentele faciliteit waar het allemaal om draait is een accellerator met een diameter van 27 km. Het is een zeer grote hadron collider met een 100 miljoen sensoren (1 sensor is een digitale camera) die 40 miljoen events vastleggen per seconde. Daarvan worden er 200 per seconde geselecteerd en die worden bewaard.
De verhouding is ongeveer als volgt:
Ruwe data 3200 TB
Reconstructed data 2000 TB
Physics data 200 TB


Preservatie en open access van de HEP data
Er bestaat niet echt een long term archiverings strategie. Bedenk hoe dit zich verhoudt tegen de biljoenen die via fondsen geinvesteerd wordt in het onderzoek. Moeten die data dan niet net zoals de publicaties vrij toegankelijk zijn?

Waarom is archiveren van data uberhaubt van belang? De data waren van belang om te meten, waarom zouden ze dan niet belangrijk genoeg zijn om op te slaan? Daarnaast is het erg kostbaar om metingen te reproduceren. Misschien dat later blijkt dat je terug moet in de geschiedenis en dan heb je de data nog.
Voor wie zijn de data van belang?
- voor de onderzoekers die de metingen hebben verricht (soms jaren na dato)
- voor onderzoekers die op dezelfde tijd experimenten verrichtte
- onderzoekers van toekomstige experimenten
- theoretische fysici die de data opnieuw willen interpreteren
- onderwijs


Datapublicatie anno 2004: een artikel met aan het eind van het artikel een reeks meetgetallen
Waarom is er niet meer aandacht voor datapublicatie. HEP heeft alles mee: is Open Access minded (denk aan preprint server ArchiveX). De plaats van de dataopslag is ook niet het probleem: er is ruimte genoeg. Hardware migratie: geen probleem, Software migratie Idem: dat gebeurd bij HEP al zeer regelmatig. Het probleem ligt in de data zelf. Het datamodel is zeer complex.

De oplossing is om parallel te denken. Tegelijkertijd met een experimenteel datamodel moet er geinvesteerd worden om parallel een format te onwikkelen voor het hergebruik. Dit format zal uiteindelijk begrijpelijk moeten zijn voor en hergebruikt moeten kunnen worden door andere experimentele wetenschappers en theoretici. Dit is een moeilijk probleem: de wetenschapper die de orginele dataset meet interesseert het kleine wiggeltje op het signaal en niet de langdurige opslag van de dataset maar je hebt de kennis van deze wetenschapper wel nodig om de data te kunnen opslaan. Dit probleem los je alleen op de culturele verschuiving te bewerkstelligen door iedereen bewust te maken van deze problematiek en te proberen dit punt zo veel mogelijk op de agenda te krijgen.
www.scoap3.org
salvatore.mele@cern.ch