Posljednjih godina, na različitim razinama složenosti, iznesene su vrlo različite statističke metodologije za analizu podataka o genotipu i identificiranje genetskih varijacija koje mogu biti odgovorne za povećanje osjetljivosti na bolesti. Što je populacijsko-statistička metoda za proučavanje genetike? Koja je njegova bit i značaj u proučavanju nasljednosti?
Statistička genetika je znanstveno područje povezano s razvojem populacijsko-statističkih metoda za dobivanje genetskih podataka. Ovaj se izraz najčešće koristi u kontekstu. ljudska genetika. Istraživanja u ovom području obično uključuju razvoj teorije ili metodologije za podršku istraživanju u jednoj od tri međusobno povezana područja:
Statistička genetika teži bliskoj suradnji s genetičarima, molekularnim biolozima, kliničarima i bioinformaticima. Statistička genetika je vrsta računalne biologije.
Populacijska genetika proučava genetsku strukturu populacija i njihov genski fond. On također pokriva pitanja koja se odnose na interakciju faktora koji određuju postojanost i promjenu strukture genoma. Što je populacija? To je skup pojedinaca iste vrste koji se slobodno ukrštaju i zauzimaju određeno teritorijalno područje, a imaju i zajednički genski bazen (genetski fond) koji prelazi iz generacije u generaciju.
Populacijsko-statistička metoda genetike koristi se u proučavanju nasljednih bolesti, izmjeni normalnih i patoloških gena, genotipova i fenotipa u populacijama različitih lokaliteta, zemalja i gradova. Koja je njegova jedinstvenost? Suština populacijsko-statističke metode je u tome što je usmjerena na proučavanje obrazaca širenja nasljednih bolesti u populacijama koje se razlikuju u svojoj strukturi. Proučavamo mogućnost predviđanja njihovog ponavljanja u budućim generacijama.
Statistička genetska analiza kvantitativnih svojstava u velikim pedigreima je ogroman računski zadatak zbog potrebe da se uzme u obzir neovisnost među rođacima. S porastom svijesti da varijante rijetkih sekvenci mogu biti važne u kvantitativnim ljudskim varijacijama, istraživanja nasljednosti i asocijacija s velikim pedigreima povećat će se učestalost zbog veće vjerojatnosti viđenja više kopija rijetkih varijanti među srodnim pojedincima.
Stoga je važno imati statističke postupke genetskog testiranja koji koriste sve dostupne informacije za izdvajanje dokaza o genetskoj povezanosti. Optimalno testiranje asocijacije fenotipa povezano je s točnim izračunom statistike omjera istine, koje zahtijevaju reverziju potencijalno velikih matrica. U kontekstu kombiniranja cijele sekvence genoma, takav izračun može biti netočan.
U vezi s napretkom laboratorijskih tehnologija, populacijsko-statistička metoda i genetski epidemiološki pristupi složenim bolestima brzo se mijenjaju kako bi se nosili s ogromnim genetskim podacima. Kako se laboratorijske tehnologije mijenjaju, postalo je moguće generirati potpunije genetske podatke genomske generacije s cijelim podacima sekvence genoma.
Bilo je problema s višestrukim testiranjem i pojavom rijetkih genetskih varijanti koje su bile ograničene na tradicionalne statističke metode, što je dovelo do razvoja metoda za rijetku varijantu analize. Sadašnja istraživanja nisu usredotočena samo na analizu pojedinih genetskih varijanti, već i na analizu nekoliko genetskih varijanti, posebno korištenjem mrežnih metoda.
Istraživanja na području genetike su se brzo razvijala, počevši od istraživanja pojedinih područja do završetka istraživanja genoma velikih razmjera. I premda je proučavanje genetskih udruženja provedeno već dugi niz godina, čak i za najjednostavnije analize postoji mali konsenzus o najprikladnijim statističkim postupcima.
Statistička genetika je područje konvergencije genetike i kvantitativne analize. Tijekom proteklih nekoliko godina doživio je dramatičnu promjenu paradigme, od pretežno teoretskog subjekta u kojem postoji malo mogućnosti za empirijske podatke do stroge discipline, gdje postojanje velikih spremišta genetskih podataka omogućuje istraživačima stvaranje i istraživanje novih znanstvenih hipoteza.
S pojavom relativno isplative tehnologije s visokom propusnošću genotipizacije, sada je moguće istražiti etiologiju složenih bolesti, bioloških procesa kroz koje se nasljeđuje DNA i evolucijske povijesti ljudske populacije. S medicinskog stajališta, napredak korištenja populacijsko-statističke metode u proučavanju uloge nasljednosti je u razvoju i analizi farmakogenetičkih studija, odnosno studija u kojima je genetska varijabilnost povezana s odgovorom na lijekove.
To u konačnici može dovesti do razvoja pristupa „personalizirane medicine“ u zdravstvu. Naravno, za svako od ovih područja istraživanja potrebne su specijalizirane metode zaključivanja i računanja. Ovaj pregled populacijsko-statističkih metoda u genetici ograničen je na mapiranje udruga: moćna metodologija za koju se smatra da pomaže u razumijevanju genetske osnove ljudskih bolesti i drugih fenotipova od interesa.
Umjesto da se pokušaju istaknuti metode usporedbe asocijacija, izloženost se sužava i uključuje samo pristupe za analizu podataka za istraživanje u slučaju bolesti ili za situacije u kojima su dostupni samo bolesni ljudi. Svrha ovog članka je pozvati čitatelja na ne-tehnički obilazak niza odabranih populacijsko-statističkih genetičkih metoda koje se trenutno koriste za mapiranje gena.
Glavni primjer populacijsko-statističke metode je Hardy-Weinbergov zakon. Temelji se na obrascu koji su 1908. otkrili matematičar iz Engleske J. Hardy i liječnik V. Weinberg iz Njemačke kako bi razvili savršenu populaciju. Zakon je stoga dobio ime po dva imena. Da bi stanovništvo bilo idealno, potrebni su sljedeći uvjeti:
Savršena ravnoteža može biti uznemirena brojnim čimbenicima, uključujući usko povezane brakove, mutacije, selekciju, migracije i drugo. Hardy-Weinbergov zakon smatra se osnovom za razmatranje genetskih transformacija koje se javljaju u prirodnim i umjetno stvorenim populacijama biljaka, životinja i ljudi.
Obilježje dizajna slučaja-kontrole je da su subjekti uključeni u uzorak slučajno odabrani iz određene populacije prema statusu bolesti retrospektivno. Genetski sastavi pojedinaca koji pripadaju dvjema skupinama, slučajevima i kontrolama, uspoređeni su u nadi da njihove razlike u nekim uskim područjima genoma mogu poslužiti kao uzročno objašnjenje stanja bolesti. Među različitim vrstama genetskih markera, polimorfizmi pojedinačnih nukleotida (SNP) igraju središnju ulogu u mapiranju složenih bolesti. Za cijeli ljudski genom, postoji najmanje 10 milijuna SNP-ova s učestalošću od> 1%, za koju se smatra da čini oko 90% genetske varijacije osobe.
Temeljni koncept u mapiranju asocijacije je veza neravnoteža između genetskog markera i lokusa koji utječe na ispitivanu osobinu. On obuhvaća odstupanje od vjerojatnosne neovisnosti među alelima ili genetskim markerima. Na primjer, neravnoteža povezivanja između dva alela, kao što su A i B, može se kvantificirati mjerenjem razlike između p AB , vjerojatnosti promatranja AB haplotipa (tj . Linearnog rasporeda dva alela na istom kromosomu naslijeđenog kao jedna cjelina) i p A p B , gdje su p A i p B vjerojatnosti promatranja A i B alela . Međutim, u većini slučajeva, haplotipovi nisu izravno dostupni, a njihova se učestalost vrlo vjerojatno određuje iz podataka o genotipu.
Metode izlaza, zasnovane na varijantama algoritma minimizacije očekivanja, iterativne tehnike za dobivanje maksimalnih procjena vjerojatnosti u modelima podataka koji nedostaju, popularan su izbor za dobivanje frekvencija uzorka haplotipa. Dokumentirana je točnost algoritma za minimiziranje očekivanja za procjenu frekvencija haplotipa za različite simulacijske sheme, kako frekvenciju alela tako i mnoge druge čimbenike. Najnoviji razvoj koristi promatranje u kojem, u kratkim regijama, haplotipovi u populaciji imaju tendenciju da se grupiraju u skupine, a to skupljanje teži da varira duž kromosoma.
Dobiveni obrasci genetske varijacije mogu se dobro opisati skrivenim Markovljevim modelima, a procjene parametara napravljene su pomoću algoritma za izvođenje haplotipske faze, kao i nedostajućih podataka o genotipu. Alternativno, mjera kompozitne genotipske neravnoteže može se izračunati izravno iz genotipskih podataka biluka, uz pretpostavku slučajnog parenja, što odgovara gore spomenutom alelnom meridijanu. Brojni drugi zajednički koeficijenti i njihova svojstva proučavani su analitički i kroz modeliranje.
Opseg populacijsko-statističkog i dvostruka metoda uključuju proučavanje uzoraka nasljeđivanja znakova u parovima blizanaca. Predložen znanstvenikom Haltonom 1875. godine, ova metoda je u početku korištena za procjenu uloge nasljednosti i okoliša u razvoju ljudskih mentalnih svojstava. Sada se naširoko koristi u proučavanju nasljednosti i varijabilnosti normalnih i patoloških znakova. Može se koristiti za prepoznavanje nasljedne prirode određene osobine, određivanje penetracije alela i procjenu vanjskih čimbenika koji utječu na tijelo.
Suština dvostruke metode:
Proučavanje genoma u populacijsko-statističkom metoda istraživanja ljudske genetike omogućuje opsežnije pretraživanje genetskih čimbenika rizika. U bliskoj budućnosti, ove će studije biti jeftinije i stoga pristupačnije. Sa statističke i računalne točke gledišta, studije genoma u cjelini nude ne-trivijalne probleme povezane, između ostalog, s vrlo velikim brojem markera koji bi trebali biti uključeni u analizu, u usporedbi s obično manjim veličinama uzoraka.
Pitanje koje izaziva mnogo diskusija i potiče razvoj novih analitičkih metoda je da li su složene bolesti uzrokovane jednom zajedničkom opcijom ili mnogo opcija koje imaju male učinke. Uobičajena hipoteza o zajedničkoj bolesti ukazuje na to da će genetski rizik od uobičajenih bolesti često biti uzrokovan alelima koji uzrokuju bolest, a nalaze se na relativno visokim frekvencijama. Do sada su dokazi u njegovu korist bili ograničeni.
Razumljivo je pretpostaviti da se obične bolesti kontroliraju složenijim genetskim mehanizmima koje karakterizira kombinirano djelovanje nekoliko gena, a svaki gen ima samo mali granični učinak, vjerojatno zato što prirodna selekcija uklanja gene s većim učincima. U ovom slučaju, skupine markera treba testirati zajedno radi asocijacije, što se može učiniti na dva glavna načina: grupiranje markera zajedno u genotipove s nekoliko lokusa tako da je osnovna jedinica statističke analize još uvijek individualna ili kroz haplotipove, čime se učinkovito udvostručuje veličina uzorka.
Umjesto pojedinačnog ispitivanja svakog markera, moguće je zajednički testirati određene kombinacije alelnih varijanti u nizu čvrsto povezanih markera na istom kromosomu, to jest, haplotipovima. Uključujući informacije iz nekoliko susjednih markera, haplotipovi zadržavaju cjelokupnu strukturu i više izravno odražavaju istinske polimorfizme.
Najlakši način da se provjeri postoji li veza između haplotipa i statusa bolesti jest tretirati svaki haplotip kao zasebnu kategoriju, moguće kombiniranjem svih rijetkih haplotipova u dodatnu klasu. Taj se proces obično izvodi u dva stupnja: prvo, procjenjuju se frekvencije haplotipa, zatim se izračunava standardno ispitivanje za asocijaciju, na primjer, omjer vjerojatnosti statistike. Kako bi se uhvatili u koštac s nadutom statistikom testa zbog procjene haplotipa, distribucija testa ispod nule može se dobiti nasumičnim miješanjem bolesnog stanja i ponovnom procjenom frekvencija haplotipova.
Iako ovaj pristup omogućuje procjenu ukupne povezanosti haplotipova i bolesti, ne donose se zaključci o učincima specifičnih haplotipova ili haplotipnih značajki. Da bi se riješili ovi problemi, brojni testovi specifičnih učinaka haplotipa temelje se na procijenjenoj vjerojatnosti bolesti, pri čemu se status bolesti smatra kao rezultat, a haplotipovi uvode regresijski model kao kovarijate. Subjekti s dvosmislenim haplotipovima smješteni su izračunavanjem očekivane vrijednosti kovarijabli zbog genotipova ispitanika, koristeći očekivane frekvencije haplotipova.
U ljudskim populacijama nastalim relativno nedavnim miješanjem određenih skupina predaka, kao što su Afroamerikanci, prijenosni kapacitet se proteže na većim udaljenostima nego u drugim, manje heterogenim populacijama. Za bolesti koje se razlikuju u prevalenciji između dvije ili više populacija predaka, ova širokopojasna širina se može koristiti za traženje genetskih varijanti odgovornih za etničke razlike u riziku od bolesti.
Glavna poanta je da će u mješovitim populacijama markeri s lokusom odgovornim za etničku razliku u riziku od bolesti imati veći udio predaka od rizične populacije od očekivanog. Mapiranje gena može se provesti traženjem uskih genomskih regija koje pokazuju prekomjerne udjele rodova iz jedne od sastavnih populacija predaka u metodologiji koja se naziva mapiranje nečistoća.
Članstvo populacije u svakom mjestu za sve subjekte treba statistički vrednovati pomoću tipičnih markera. Općeprihvaćeni probabilistički model za opisivanje stohastičkih varijacija u pedigreu sugerira da kromosomi mogu biti predstavljeni općim generacijskim blokovima, s točkama prekida između susjednih blokova, koji se javljaju kao Poissonov proces, i prijelazi između susjednih predaka blokova kontroliranih Markovljevim lancem. Prema ovom modelu, konstruirano je nekoliko metoda izvođenja kako bi se procijenilo podrijetlo oboljelih kromosoma i otkrilo predstavljene populacije predaka.
Studije modeliranja i analitički proračuni pokazuju da usporedba nečistoća ima nekoliko prednosti u usporedbi s uspostavljenim pristupima mapiranju na temelju populacije, na primjer, mnogo manje markera su potrebni za traženje cijelog genoma i manje je osjetljiv na utjecaj alelne heterogenosti.