Wat leer je in deze training?
Deze cursus is een vervolg op de eerste introductiecursus Supercomputing, waarin je een diepere duik kunt nemen in het gebruik van supercomputers met speciale aandacht voor efficiëntie en good practices en een zeer praktische aanpak.
De opzet van deze cursus omvat de volgende modules:
- Grondbeginselen van prestatieanalyse. In deze technische inleidende presentatie worden hybride systemen met hoge prestaties geïntroduceerd, waarbij de architectuur en configuratie van het systeem abstract worden behandeld. Ons doel is om het begrip van HPC-complexiteit te vergroten voordat we dieper ingaan op het belang van prestatieanalysemodellen. Er wordt speciale aandacht besteed aan het Roofline-model.
- Abstracte modellering van hybride supercomputers. Een abstracte modelbenadering presenteren voor hybride supercomputers, waarbij hun complexiteit wordt gecondenseerd in drie kernparameters: piekprestaties, geheugen en netwerkbandbreedte.
- Prestatieanalyse. Prestatieanalyse verkennen, te beginnen met een overzicht van verschillende modellen en dieper ingaan op de specifieke kenmerken van het daklijnmodel.
- Het roofline model. Het roofline model beschrijven en de praktische toepassing ervan presenteren door middel van duidelijke uitleg en demonstraties.
- Bestandssystemen. Deze praktische sessie behandelt het juiste gebruik van bestandssystemen op HPC-systemen, in het bijzonder op Snellius.
- Slurm hybride taken. Slurm, een veelgebruikte taakplanner voor HPC-systemen (High-Performance Computing), is in eerdere secties geïntroduceerd voor een fundamenteel begrip. Deze module behandelt de specifieke parameters voor de toewijzing van bronnen voor hybride jobs met gedeeld en gedistribueerd geheugen.
- Knooppunten, cores en taken. Dit segment gaat dieper in op de fundamentele concepten van nodes, cores en taken, en belicht hun rol binnen de context van HPC-systemen.
- Bindingen. Het concept van bindingen wordt verkend, waarbij inzicht wordt gegeven in hoe taken worden gekoppeld aan specifieke bronnen, wat het begrip van de deelnemers over mechanismen voor het toewijzen van bronnen verbetert.
- Hands on. We zullen de vectoroptellingskernel met meerdere configuraties uitvoeren met behulp van een set scripts.
- QCG pilotjob. In sommige gevallen moeten gebruikers een grote hoeveelheid lichtgewicht cases uitvoeren. De nodes van supercomputers zijn echter te krachtig en laten alleen relatief grote partities toe. De kleinst mogelijke toewijzing op Snellius is bijvoorbeeld 1/4 van een node: 32 cores en 64 GB. Job concurrency is een veelgebruikte strategie om meerdere lichte jobs efficiënt te lanceren op zulke grote partities.
- Grondbeginselen van job concurrency. Dit segment gaat in op de basisprincipes die ten grondslag liggen aan job concurrency. Job concurrency is een methodologische benadering die de gelijktijdige uitvoering van meerdere kleinere jobs binnen een grotere toegewezen partitie mogelijk maakt. Het doel is om het gebruik van bronnen te optimaliseren en de efficiëntie te verbeteren in scenario’s waar lichtere taken worden uitgevoerd op nodes die zijn ontworpen voor zwaardere werklasten.
- Praktijkgerichte QCG PilotJob. Deze praktische sessie biedt deelnemers hands-on ervaring met het QCG Pilotjob framework. Deelnemers krijgen praktische inzichten in de strategieën en technieken van het gebruik van job concurrency om meerdere lichtgewicht jobs te starten en te beheren binnen de context van omvangrijke node-partities.
Vereisten
Deelname aan de cursus Introductie tot supercomputing, deel I
De voertaal is Engels
Additionele informatie
Locatie: SURF Amsterdam (VK1/2)
Wanneer: 15 januari 2024 van 13:30 tot 17:00
Geen eigen bijdragen