Nr. 20-05: Drifts- og svartidsproblemer på Ø90
Der arbejdes intenst inden for flere områder for at forbedre den samlede driftssituation for Ø90 hos IBM. Der er nedsat en "krisestab" mellem IBM og Landscentret til at sikre, at der gøres alt, hvad der er muligt for at løse problemerne.
Nedenstående orientering er d.d. sendt til Center- og Kontorledere:
Driftsproblemer på Ø90
Der har siden 9/2 2005 været problemer med svartider og stabilitet i Ø90. Problemet skyldes fejl i forbindelse med, at der er sat ny ekstra server i produktion for at klare det ekstra pres i 1. halvår, og der er intet der indikerer, at fejlene ligger i Ø90-systemet.
Situationen er helt utilfredsstillende for brugerne. IBM har arbejdet ihærdigt for at løse problemerne - indtil nu uden resultat. På den baggrund tog vi i går situationen op på et krisemøde med IBM's ledelse.
I det følgende er der redegjort for de tiltag, der er iværksat for hurtigst muligt at løse problemerne og vende tilbage til normale driftstilstande.
Baggrund
For at være parat til at håndtere den stigende aktivitet på Ø90 i perioden februar til juni blev det før jul besluttet at øge serverkapaciteten på Ø90. Den nye Server 5, der har samme kapacitet som de fire eksisterende servere tilsammen, blev installeret 8/2 2005 for sammen med de eksisterende servere at klare den stigende aktivitet.
Det har desværre vist sig at være en fejl i miljøet, som kun optræder på Server 5, og som bevirker, at der sker nedbrud på maskinen, når belastningen øges. Det medfører følgende ulemper:
- Svartiderne er fortsat utilfredsstillende, idet der fortsat er for få brugere på Server 5 med deraf øget pres på de 4 øvrige servere.
- 3-400 brugere vil miste forbindelsen ved et nedbrud og skal logge på igen.
- Når brugerne logger på de fire andre servere, vil disse fire servere blive belastet yderligere.
Hændelsen er blevet forelagt dels leverandøren af maskinen og operativsystemet (SUN) og dels IBM’s DB2 specialister i England og Canada, uden at de endnu har været i stand til at forklare og løse fejlen. Vi presser selvfølgelig maksimalt på for at få løst problemerne.
Handlingsplan
På kort sigt vil IBM - for at forbedre svartiderne - indsætte yderligere to servere i miljøet for at kunne sprede belastningen yderligere. Første server forventes indsat i serverfarmen fredag den 4/3 og den anden indsættes i løbet af weekenden.
Indtil weekenden vil IBM foretage to planlagte afbrydelser af alle serverne kl. 10.00 og kl. 13.30. Det betyder, at brugerne efter en pause på fem minutter, igen skal logge på. Vi og IBM vurderer, at det vil være den løsning, der på det ultrakorte sigt giver brugerne de bedste svartider, velvidende at løsningen ikke er tilfredsstillende.
IBM kan desværre ikke meddele, hvornår fejlen er fundet og løst. IBM har eskaleret situationen over for IBM og SUN og bedt om, at den ypperste ekspertise er dedikeret til opgaven.
I den permanente løsning af problemet forfølger IBM tre parallelle spor:
- IBM og SUN arbejder på at løse fejlen
- Udskifte nuværende servere med nye
- Opgradering af miljøet til 64 bits adressering for at kunne udnytte maskinressourcerne yderligere, hvilket IBM forventer vil kunne sættes trinvis i produktion fra weekenden.
IBM vurderer, at alle tre spor vil kunne give en løsning på driftsproblemet.
Den nedsatte ”krisestab” mellem IBM og Landscentret skal sikre, at der gøres alt, hvad der er muligt for at løse problemet. Næste planlagte møde er fredag den 4/3 kl. 16.30.
Venlig hilsen
Niels Peter Skrubbeltrang/Georg Elten