• A
  • A
  • De rekenkracht die nodig is voor een Nobelprijs

    VIRGO Observatory

    VIRGO Observatory

    - Voor het onderzoek naar zwaartekrachtgolven dat vorige week de Nobelprijs voor de Natuurkunde won is veel rekenkracht nodig. Ook Nederland draagt daar aan bij. Op de faciliteiten van SURFsara en Nikhef wordt dit jaar voor alleen dat onderzoek al 12,5 miljoen uur aan rekenwerk verricht.

    De eerste zwaartekrachtgolven – rimpelingen in de ruimtetijd – werden in 2015 en 2016 gemeten door twee Amerikaanse LIGO-detectoren. Deze trilling in de ‘ruggengraat’ van het heelal zorgen voor een mijlpaal in de natuurkunde en astronomie. Afgelopen weken ontvingen Rainer Weiss (MIT), Kip Thorne |(Caltech) en Barry Barish (Caltech) de Nobelprijs voor de Natuurkunde. Zij vormen de spil van het LIGO-project.

    Zoeken naar een speld in een hooiberg

    Bij het LIGO-project zijn veel Nederlandse wetenschappers betrokken. Met name bij het Nationaal instituut voor subatomaire fysica (Nikhef) leveren veel natuurkundigen een bijdrage aan de data-analyse. Omdat de zoektocht naar zwaartekrachtgolven eigenlijk een soort van zoeken naar een speld in een hooiberg is, worden er gigantische hoeveelheden data binnengehaald en geanalyseerd.

    Voor die data-reductie is heel veel rekenkracht nodig. SURFsara in Amsterdam is één van de partijen die de faciliteiten in huis heeft om dergelijke grote rekenkracht te bieden. Coen Schrijvers is teamleider van de Distributed Data Processing groep bij SURFsara: “Voor onderzoek waarbij zoveel data wordt gegenereerd en geanalyseerd kunnen onderzoekers het meestal niet alleen af.”

    Als voorbeeld van zo’n project geeft Schrijvers de Large Hadron Collider van CERN waar in 2012 het Higgs-deeltje werd ontdekt. Ook daarvoor wordt gebruikgemaakt van de Grid-faciliteit van SURFsara. “De omvang van de data die dit soort experimenten produceert maakt het eigenlijk noodzakelijk om die te verspreiden over meerdere locaties.”

    “In de jaren negentig is door CERN bekeken of alle data ook centraal verwerkt zou kunnen worden maar dat bleek op meerdere punten niet haalbaar, bijvoorbeeld bij de energievoorziening: met de capaciteit van de lokale elektriciteitscentrale zou dan alleen dataverwerking in de winter mogelijk zijn geweest. Een geografisch-gedistribueerde faciliteit voor data-verwerking heeft dat probleem niet.”

    Daarnaast is centralisatie bij zulke kostbare onderzoeksprojecten een risico voor de veiligheid van de opgeslagen data, dus ook om die reden verspreiden grote onderzoeksprojecten hun data over verschillende locaties. In het geval van de LIGO-Virgo Collaboration wordt gebruik gemaakt van de Dutch National e-Infrastructure, een samenwerking met Nikhef en RUG-CIT die gecoördineerd wordt door SURFsara. Daarop werd dit jaar al 12,5 miljoen uur aan rekenwerk uitgevoerd.

    Centrale sturing

    “Het Grid is eigenlijk een hele reeks aan elkaar gekoppelde computer clusters met hetzelfde doel”, vertelt Schrijvers. “Samen vormen die een heel groote gedistribueerde infrastructuur waarop je berekeningen uit kan voeren. Het voordeel van het Grid ten opzichte van heel veel losse computerclusters is dat er centrale aansturing is. Er is bijvoorbeeld een centrale helpdesk, de monitoring gebeurt centraal, er is samenwerking tussen de locaties, dus als er iets misgaat ergens in het Grid kom je daar als gebruiker heel snel achter.”

    “In de Grid infrastructuur van SURFsara functioneren de clusters voor de data-verwerking en voor de data-opslag onafhankelijk van elkaar, maar zijn ze gekoppeld door een geavanceerde netwerkverbinding,” legt Schrijvers uit. “Een nadeel daarvan is dat niet direct met de opgeslagen data kan worden gewerkt, die moet eerst worden opgehaald en de resultaten later weer opgeslagen, maar het voordeel is de schaalbaarheid van het geheel die ervoor zorgt dat we bij de dataverwerking heel hoge doorvoersnelheden kunnen bereiken. We zitten op een maximale doorvoer van een halve terabit per seconde.”

    Voor projecten zoals rond het Higgs-deeltje en LIGO-Virgo is het van belang dat er op zulke snelheden data verwerkt kan worden. “Het gaat om zoveel meetdata. Wat die onderzoeksprojecten eigenlijk doen is een signaal vinden in heel veel ruis.”

    Alleen zinvol bij miljoenen berekeningen

    De Grid-faciliteiten van SURFsara en haar partners zijn onderdeel van het zogeheten Worldwide LHC Computing Grid dat bestaat uit ‘tiers’ op drie niveaus (0, 1, 2).  Niveau 0 is LHC van CERN zelf. SURFsara behoort met twaalf andere faciliteiten tot de Tier-1. Op dat niveau wordt 24 uur per dag vanuit CERN ruwe data opgeslagen en wordt deze verwerkt en beschikbaar gemaakt voor verdere verwerking op Tier 2-faciliteiten.

    Volgens Schrijvers is het gebruik van de Grid-faciliteiten alleen lonend als het gaat om een echt groot onderzoeksproject. “Voor het gebruik van deze infrastructuur is relatief veel expertise vereist en bijvoorbeeld de geografische verspreiding over meerdere lokaties vraagt erom dat extra vormen van controle moeten worden ingebouwd. Dat is alleen zinvol voor onderzoeksprojecten waarin miljoenen berekeningen worden uitgevoerd om vele petabytes aan data te verwerken.”