O hledání pulsarů s Einstein@home a o fungování distribuovaných výpočtů obecně  
Einstein@Home spoléhá na výpočetní výkon stovek tisíc dobrovolníků z 192 zemí k hledání nových neutronových hvězd s využitím dat z elektromagnetické a detektorů gravitačních vln. V tomto článku se zaměříme na popis hledání nových rozhlasových pulsarů pomocí PALFA údajů zjištěných z Arecibo Observatory. Obrovský výpočetní výkon umožňuje toto vyhledávání pokrýt novou oblast prostoru a může detekovat pulsary v binárních systémech s rotací až 11 minut.

Einstein@Home je distribuovaný počítačový projekt se zapojením veřejnosti, který byl zahájen na počátku roku 2005. Do tohoto projektu se zapojilo více než čtvrt milionů členů z řad veřejnosti se svými notebooky a stolními počítači. V případě nečinnosti si tyto počítače stáhnout pozorovací data ze serverů Einstein@Home, a prohledávají je s cílem detekovat údaje slabých astrofyzikálních signálů, a vrátit výsledky této analýzy. Kolektivní výpočetní výkon ke dnešnímu dni dosahuje 990 TeraFlops (http://einstein.phys.uwm.edu/server_status.php), což by tento super-počítač výkonově řadilo na 24. místo mezi největšími z superpočítačů na světě (http://www.top500.org/list/2012/11/).


 

Cílem projektu je nalézat neutronové hvězdy, s použitím údajů z mezinárodní sítě detektorů gravitačních vln, z radioteleskopů, a z širokoplošného průzkumu naší oblohy pomocí detektoru záření gama na palubě satelitu Fermi. Vzhledem k tomu, že očekávané signály jsou slabé, a jejich zdrojové parametry neznámé, citlivost vyhledávání gravitačních vln, radio pulsarů, a zdrojů gama  záření jsou omezeny dostupným výpočetním výkonem.


Před rokem 2009, Einstein@Home prohledával data získaná především z interferometru gravitačních vln observatoře LIGO, ale tato vyhledávání zatím nevedla k žádnému pozitivnímu nálezu. Dobrou zprávou je že tento detektor podstupuje instalaci nových a citlivějších detektorů, které by měly rozšířit horní meze hledání možných emisí průběžných gravitační vln. Toto hledání probíhá neustále paralelně, se zvyšující se citlivostí metod analýzy dat a také jejich lepší kvality.

V roce 2009, Einstein @ Home začal také prohledávat data z radioteleskopu Arecibo v Portoriku: v současnosti stále patřícím mezi naše největší a nejcitlivější radioteleskopy. A od léta 2011, bylo přidáno hledání izolovaných gama pulsarů v údajích získaných z mise radioteleskopu satelitu Fermi.


Výpočetní kapacita Einstein@Home se používá pro hledání signálů pocházejících z neutronových hvězd s krátkou oběžnou dobou kolem jejich hvězdného společníka. Toto je špatně prozkoumaná oblast parametrickém prostoru, kde ostatní metody vyhledávání ztrácí hodně nebo většinu z jejich citlivosti. Detekce těchto pulsarů se standardními metodami Fourierových transformací brzdí rozmazání pulzního signálu způsobené Dopplerovým jevem z pohybu binární soustavy během jejího pozorování.
Předchozí prováděné vyhledávání používalo "zrychlení vyhledávání" k nápravě modulace nejnižší řádu vyplývající z binárního pohybu, který může být modelován jako konstantní zrychlení podél směru pozorování. Ačkoli bylo výpočetně efektivní tak tyto akcelerační techniky byly účinné jen pro obejkty s velmi malou oběžnou dobou. V kontrastu s tím, výpočetní výkon Einstein @ Home umožňuje plnou demodulaci, což výrazně zvyšuje citlivost na signály z pulsarů v kompaktních kruhových drahách s periodou pod ~ 1 h.


V srpnu 2010, Einstein@Home oznámil svůj první objev nové neutronové hvězdy, která se zdá být nejrychleji rotující dosud nalezenou. Ve stejném měsíci, Einstein@Home také objevil 48 Hz pulsar v binárním systému a do dneška téměř dalších padesát radio-pulsarů.


 

Nyní se zaměřme na to co vlastně vede dobrovolníky k spolupráci na tomto projektu. Základní motivací pro tuto činnost je jednoduchá: souhrnný výpočetní výkon počítačů těchto dobrovolníků obecně přesahuje výkon super-počítačů univerzit, veřejných a soukromých laboratoří o dva až tři řády. Laboratoře pro výzkum přírodních věd, mohou často těžit jen malou část těchto zdrojů. Tento typ výzkumu zahrnuje jak numerické simulace a parameterických prostorů metodou Monte-Carlo. A to za využití ohromných objemů pozorovaných dat a úsilí věnovanému prohledávání v běžných podmínkách neprohledávatelného.


Na celém světě je více než miliarda osobních počítačů (PC), které jsou připojeny k internetu. Tyto počítače obvykle obsahují x86-architekturu CPU vyrobenou společností Intel nebo AMD, a to se dvěmi a více jádry. Každé jádro může provést čtyři výpočty v desetinné čárce během jednoho processorového cylku. Dále typicky mají jeden gigabajt (GB) nebo více paměti (RAM), a paměťová zařízení (HDD) se stovkami GB úložného prostoru. Mnoho z těchto systémů rovněž obsahuje grafický procesor (GPU), které mohou provádět výpočty s plovoucí desetinnou čárkou o jedno až dvě úrovně rychleji než moderní procesorové jádro.


Surový výpočetní výkon každého z těchto spotřebitelských počítačů je podobný jako u systémů použitých jako stavební kameny pro počítačové clustery nebo ve výzkumných superpočítačích. Ve skutečnosti jsou moderní výzkumné počítače umožněny pouze úspory dosaženými rozsahem spotřebitelského trhu, zajišťujícím, že základní komponenty jsou levné a široce dostupné. Tyto servery se obvykle skládají ze stovek nebo tisíců těchto procesorů, kde dobrovolně distribuované výpočetní systémy nabízí přístup ke stovkám tisíc nebo milióny těchto procesorů.


Dobrovolnické distribuované výpočty jsou vhodným řešením jen pro některé výpočty a problémy analýzy dat: existují zde sociální a technická omezení. Chcete-li získat dobrovolníky, musí výzkum rezonovat s "osobou na ulici". Musí mít jasné a srozumitelné cíle, které odvolání k široké veřejnosti, a že vzrušuje a udržet zájem. Zkušenosti ukazují, že nejméně čtyři oblasti mají tyto vlastnosti: Lékařský výzkum, matematika, klima / environmentální věda, a astronomie / astrofyzika.


Kvůli technickým omezením vznikají proto, že počítače jsou připojeny pouze k Internetu. To je velmi odlišné, než výzkumné superpočítače, které mají obvykle nízkou latencí vysokorychlostní sítě, a umožňují jakémukoli CPU přístup k datům z jiných CPU s latencí v nanosekundách a s obejemem dat v GB. V kontrastu, je výpočetní latence dobrovolníků distribuované sítě o patnáct řádů větší; někteří dobrovolníci se mohou připojit k Internetu pouze jednou za týden! Průměrná možnost objemu přenosových dat je také mnohem menší, a to zejména pro data distribuované z centrálního umístění. Například, pokud je projekt distribuce dat připojen pomocí 1Gb / s do internetu, při připojení 100k hostitelských počítačích zbývá, průměrná šířka pásma pouze 10 kb / s na hostitele. To je nejméně o šest řádů méně než u možností výzkumných zařízení.


 

Hlavní technická omezení distribuovaných výpočtů jsou tedy následující:
(I) musí ležet ve třídě tzv. "trapně paralelních" problémů, jejichž řešení nevyžaduje žádné sdělení nebo závislost mezi hostiteli.
(II) musí mít vysoký poměr výpočtu na vstup / výstup. Například pokud projekt distribuuje data pomocí jediného 1Gb / s připojení k síti, a aplikace vyžaduje 1 MB dat za CPU-jádro-hodinu, pak při plném obsazení 24 x 7 zvládne host obsloužit většině 360k CPU jader.
(III) musí používat pouze malou část dostupné paměti RAM (řekněme 100 MB), aby operační systém (OS) mohl rychle přecházet mezi úlohami, mezi kterými dobrovolníci poskytují svůj CPU čas.
(IV) musí být schopna častých a lehkých checkpointů (uložení vnitřního stavu pro pozdější restart) využívající pouze malé množství celkového úložného prostoru (řekněme 10 MB). Takže zvládne zachytit více nepoužívaných výpočetních cyklů, a současně ale zastavit zpracování, když dobrovolník začne počítač používat nebo se rozhodne počítač vypnout.
(V) kód, který bude spuštěn na počítačích dobrovolníka, musí být zralý kód, ne "ve vývoji". To je proto, že musí být portován na několika různých operačních systémech, a pak musí běžet spolehlivě I na počítačích dobrovolníků. Měsíce práce jsou potřeba k dosáhnutí jeho přesitelnosti, optimalizace a ladění. Tato investice má smysl pouze v případě, že jádro vědeckého kódu je stabilní a robustní. Pokud vědecký kód není zralý, hodně práce je třeba opakovat znovu. Stručně řečeno, dobrovolník v distribuovaných výpočtech není všelékem: může být jen použit k řešení některých výpočetních problémů.


Nejnovější trend v počítači je přechodem na systémy, obsahující velké množství procesorových jader. To je z velké části v reakci na dosažení základních fyzikálních limitů, které vznikají při výrobě integrovaných obvodů. Pro více než čtyřicet let, se výpočetní výkon v poměru nna fixní náklady zdvojnásobil každých 18 měsíců. To bylo důsledkem "Moorova zákona", a heuristického pozorování, že počet součástek na integrovaném obvodu rostl exponenciálně s časem. Posledních čtyřicet let byl tento trend umožněn smršťováním tranzistorů (velikost nejmenších součástek na integrovaném obvodu) spolu s odpovídajícím zvýšením rychlosti hodin a snížením provozního napětí. Provozní napětí již nemůže být sníženo, protože se začíná ztrácet signál, a proces zmenšování se v současné době posunul na 22nm nebo 32nm, ukazujíc že probíhá stále pomaleji než v minulosti. Očekává se, technologie dojde až asi k 10 nm, avšak nemůže dál, protože atomová rozteč křemíkové mřížky je 0.7nm. Chcete-li získat větší výpočetní výkon za rozumnou cenu, jediný přístup je, přidáním dalších jader do jednoho čipu.


Naštěstí spotřebitelé májí poptávku po těchto systémech. Nazýváme je GPU a jsou již dnes používány pro vysoce kvalitních vykreslování grafiky a videa. Vývoj televize od rozhlasového vysílání na přenos přes internet je nyní v plném proudu, a očekává se, že v příštím desetiletí to bude důležitou hnací silou dalšího růstu internetu kapacity a grafické schopnosti ve spotřebitelských počítačích. Již více než jedna čtvrtina strojů zapojených do projektu Einstein@Home obsahuje GPU, a dá se očekávat, že se toto číslo bude blížit stu procent v nadcházejících třech letech. Aktuální generace GPU mají 500 nebo více jader, kde každé je schopné současně provádět jednu operaci s plovoucí desetinnou čárkou v rámci jediného cyklu.


Dva přední výrobci těchto systémů (NVIDIA a AMD / ATI) také poskytují aplikační programovací rozhraní (API), které umožňují použití těchto GPU pro univerzální výpočetní operace. Tak nám vychází že, v nadcházejícím desetiletí, by měl dobrovolník participující v distribuovaných výpočtech i nadále následovat "Moorův zákon" a zajistit tak jeho platnost.


V dlouhodobějším výhledu se dá počítat i s zařazením zařízení jako jsou iPad a Kindle a smartphony, které budou pravděpodobně poskytovat také část výpočetního výkonu. Jejich CPU a GPU jsou typicky řád pomalejší než u notebooků nebo stolních počítačů, ale jejich velké počty to mohou vynahradit. Tato zařízení často tráví značnou část času nečinnosti, nebo jsou připojené k dobíjecím stanicím, během této doby mohou představovat významný výpočetní zdroj.


V budoucnu tak můžou distribuované výpočty v radioastronomii hrát ještě větší roli. Například provést průzkum celé oblohy do konce tohoto desetiletí, s využitím údajů z připravované kilometr čtvereční Array (SKA), kde bude třeba Exaflop výpočetních zdrojů. Tento průzkum bude velmi záviset na hrubém počítačovém výkonu, a tudíž bude náročné a drahé. Ale na základě přiměřených extrapolací o hardwaru v rámci běžných spotřebitelů, by mohlo několik milionů dobrovolníků schopno poskytnout dostatek výpočetních cyklů za velmi nízkou cenu.


Zdroje:
http://einstein.phys.uwm.edu/
http://arxiv.org/abs/1303.0028
http://einstein.phys.uwm.edu/team_display.php?teamid=162
https://cs.wikipedia.org/wiki/Pulsar



Autor: Jan Bílek
Datum: 14.03.2013 21:48
Tisk článku



Diskuze:


Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce








Zásady ochrany osobních údajů webu osel.cz