Monday, December 1, 2008

Google Sort

Probabil va intrebati (sau daca nu oricum va zic :>) ce mai fac oamenii din spatele gigantului pe nume Google. Ei bine, se lauda ca pot sorta 1PB (1 peta-byte = 10^6 GB) de date in 6 ore si 2 minute, folosind 4000 de calculatoare. Destul de impresionant, nu? Datele sunt stocate sub forma a 10 trilioane de inregistrari a cate 100 bytes fiecare, clear text, pe Google File System.

Dar, pentru a aduce problema la un ordin de marime mai potrivit pentru zilele noastre, tot ei zic ca au putut sorta 1TB de date, stocate in acelasi mod (fisiere text a cate 100 bytes) in 68 de secunde, folosind 1000 de calculatoare. Fostul record la sortarea unui terabyte de date era de 209 secunde pe 910 calculatoare, probabil pentru ca un petabyte n-a mai incercat nimeni pana acum :)

Daca asta nu va surprinde, aflati ca in Ianuarie 2008, toate instantele renumitului algoritm MapReduce de la Google, procesau in total, o medie de 20PB de date pe zi.

Se ridica o intrebare destul de evidenta : unde stochezi 1PB de date sortate ? Bineinteles, pe 48.000 de hard-disk-uri :)) din care, cel putin unul s-a stricat, la fiecare rulare a algoritmului de sortare. Nici nu este de mirat, avand in vedere numarul de hdd-uri folosite, timpul de rulare, si durata de viata medie a unui hdd. Dar pentru a-si tine petabyte-ul in siguranta au apelat la ajutorul lui Google File System pentru a scrie 3 copii pentru fiecare fisier pe 3 discuri diferite.

Mai multe informatii pe Google Blog

No comments: