GDPS
A
Geographically Dispersed Parallel Sysplex egymástól nagy távolságban elhelyezett, önmagában is erősen redundáns komponensekből összeállított redundáns claster.
Előszőr nézzük meg a komponenseket:
- CPU: Az MC-nél megismert módszer szerint két egyenértékű félből áll, mindketten végrehajtják a feladatokat, és ha a két eredmény nem egyezik meg, tudatják az SE-tel. Mindig van a gépben tartalék CPU.
- SE (support element): a gép ki-be kapcsolásán kívül a hibakezelés a feladata, pl. CPU hiba esetén a hibásan végrehajtott műveletet megismétli a tartalék CPU-n, a hibásat lekapcsolja, és hívja a szervizt. Természetesen redundáns, noha a gép normál működéséhez nem szükséges.
- Memória, belső busz, szellőzés, tápegység, stb: természetesen ezek a komponensek is redundánsak, hibadetektálással/javítással ellátottak, az SE felügyelete alatt.
- Számítógépház: kettős (fiók és rack) fémfallal ellátott, a rack ajtajának mintázata hasonló a mikrohullámú sütők ajtajának fémbevonatához. Ezáltal a szellőzést nem akadályozza, miközben az elektromos zavarokkal (pl. napszél, e-bomba, lehalgatás) szemben védett.
- Csatorna: a fent felsorolt részekből álló alapgép (CEC) és a perifériák közötti összeköttetés, mely üvegszál alapú és redundáns (mivel egy gép akár 256 csatornával is rendelkezhet), jellemzően max. 100 km távolságot képes áthidalni (konverzió nélkül).
- Diszkalrendszer: megkettőzött elektronika, tükrözött irás-cache, belső akumlátorok, redundáns belső adatelérés, leállítás nélkül javítható. A diszkek RAID-5 tömbökben vannak, amit kiegészít a hot spare: mivel a RAID-5 csupán egyetlen lemez meghibásodásától véd, a melegtartalék lehetővé teszi, hogy miután meghibásodott egy lemez - jobb esetben közvetlenül azelőtt, hogy meghibásodott - átmásolja/generálja az adatokat.
Távmásolási funkcióval (PPRC: point to point remote copy max 100 km-es szinkron, XRC: extended remote copy korlátlan távolságú aszinkron) is rendelkezik, hogy két alrendszer közvetlenül (a hosttól függetlenül) képes legyen az adatokat megtükrözni egymás között. Jellemzően 16-32 csatornán keresztül kapcsolódik a CEC-ekhez (egyenként 4-8 csatornán, így az erős redundancia biztosított).
- Szalagrobot: szintén redundáns, számos szalagegység mellett 2 robotkar van, a tartalék képes a hibásat kitolni.
A fenti komponensek közül a diszkalrendszerek közvetlenül (csatornán) csatlakoznak egymáshoz, a CEC és az általa használható perifériák szintén közvetlenül (csatornán) csatlakoznak, a CEC-ek egymáshoz egy hatékonyságnövelő elem (CF: Coupling Facility) segítségével kapcsolódnak, ami szintén redundáns. A rendszer legalább kettő site-on van elhelyezve, amelyek között több kilométernyi távolság található.
Eddig csupán a rendszer egyszerübb feléről volt szó, a hardverről. A szoftverről egészen röviden csak ennyit: kb. 1960-óta folyamatosan fejlesztik, és a kódjának kb. 2/3-a hibakezelés. A felhasználók számára lehetővé teszi, hogy az egész rendszert egységesen lássák, és a terhelés fügvényében képes feladatokat átrakni a különböző site-ok, CEC-ek között.
Hiba esetén (ha egyszerű átterheléssel nem fedhető el) az előre elkészített eljárások automatikusan lefutnak, amelyek a megfelelő alrendszereket elindítják. Kisebb hibákat teljesen elfed a felhasználók elöl, pl. ha a helyi diszkalrendszer megsemmisül, akkor a távoli másolatra való áttéréshez nem kell újraindítani az alkalmazásokat.
Katasztrófa esetén adatvesztés nélkül képesek a funkciók átvételére a site-ok, az alkalmazás kifinomultágától függően vagy néhány perc alatt, vagy pedig a feladatok clusteren belüli átterhelésével megszakítás nélkül.
Ez utóbbi azt jelenti, hogy egy GDPS-t érő atomtámadásból a hálózati felhasználók csak a rendszer lassulását tapasztalják. Sajnos a lokálisan belépett felhasználókra ez nem vonatkozik. Az atomtámadásnál valószínübb katasztrófák is leselkednek a géptermekre: árvíz, terrortámadás, tűz (az első GDPS "használat" oka az elektromos hálózaton belüli kábeltűz volt).