Zakaj je hadoop popolna kombinacija za sekvenco genomov

2026

Kazalo:

Sedanjost in prihodnost genomike
Potrebe industrije za določanje genomov

Klinična genomika je zanimiva tema, kjer ljudje delajo na vrhunskih tehnologijah za obdelavo hitrih in natančnih rezultatov. Na trgu je na voljo veliko sekvenčnih genomov, ki proizvajajo petabajte podatkov o sekvencah, rast sekvenciranja pa bo v bližnji prihodnosti ustvarila podatke iz eksebajta. Tu je Hadoop odlična platforma za obdelavo kompleksnega genomičnega delovnega toka. Hadoop lahko shranjuje in razvršča ogromne količine informacij in lahko tudi smiselno analizira. (Če želite razumeti, koliko podatkov dejansko vključuje, preberite Razumevanje bitov, bajtov in njihovih večkratnikov.)

Sedanjost in prihodnost genomike

Danes je kartiranje genoma doseglo vrhunec. Številni ljudje, povezani z genomično industrijo, burijo radovednost, in ker se predstavljajo nove priložnosti, je potreba po uri boljša tehnologija. Sekvenciranje genomov je zelo ponavljajoča se naloga, ki zahteva veliko virov. Samo v letu 2013 je bilo izdelanih približno 15 petabajtov podatkov in le 2.000 sekvenčnikov. Ta količina, ki je spustila čeljust, je vsebovala 300 KB sekvenčnih podatkov o človeškem genomu. Pri tej hitrosti pridobivanja podatkov je mogoče oceniti, da bo do leta 2018 proizvedeno približno en izvleček podatkov. To bo posledica rasti sekvencerjev, ki bodo ustvarili vse več podatkov na en potek. Drug razlog je pojav izjemno močnih in poceni strojev za določanje genomov. Od leta 2008 se cena teh strojev nenehno znižuje. Razlog za to so zmogljivi stroji naslednje generacije, ki so prišli na trg.

Potrebe industrije za določanje genomov

Zapleteni algoritmi se uporabljajo za obdelavo podatkov, ki se zbirajo iz človeškega genoma. Nato je treba te podatke shraniti. V prihodnosti ga bo mogoče pregledati zaradi primerjave s prvotnimi podatki. Naloga obdelave in shranjevanja 100 GB podatkov ni pretežka, še posebej, če to počnete z zmogljivimi stroji, ki so zaposleni v centrih za zaporedje. Študije kažejo, da je mogoče to količino podatkov obdelati v približno približno 1.000 CPU urah, zato je zelo enostavno. Pri tej stopnji tehničnega napredka je očitno, da bo industrija genomov kmalu obdelala na tisoče gigabajtov v samo nekaj sekundah.