유전체 데이터 분석 (3)

개인 유전체 데이터의 해석과 질병 위험률 분석

Personal genome interpretation and disease risk prediction

0. 들어가기 전에

Sequence assembly & alignment

“Whole genome sequence” (전장유전체, 총유전체) 를 한번에 시퀀싱 할 수 있는 기술이 없다는 것이 문제의 발단이다. 현재까지의 기술로는 DNA 시퀀싱을 길게 할 수록 퀄리티가 감소하여 신뢰도있는 시퀀싱은 단편서열만이 추출 가능하다. Sanger sequencing은 약 500~1000bp (base pair; 염기쌍) 정도, NGS (HTS, high-throughput sequencing) 는 50~300bp 정도의 단편서열을 추출한다. NGS가 더 작은 서열을 추출하지만 훨씬 저렴한 가격으로 대량생산이 가능하여 Sanger sequencing이 NGS로 대체되었다.

Whole genome assembly

이렇게 한번에 whole genome을 추출할 수 없으므로 이를 부분부분 추출하여 전체 지도를 만드는 것을 whole genome assembly라 한다. 인간의 유전자 지도를 만들어낸 Human genome project (HGP) 가 바로 이 whole genome assembly 프로젝트였으며 2000년에 초기 지도가 발표되었다. 이 작업은 참조유전체가 존재하지 않으므로 시퀀스 리드 (read; 단편서열) 간의 overlap에 근거하여 위치를 판별한다. 이를 위해 최소 30 이상의 coverage (= depth) 가 필요하다.

Whole genome re-alignment

이렇게 생성한 참조유전체를 기반으로 하여 개인의 유전체의 변이를 판별하는 작업을 re-alignment라 한다. 참조유전체가 있으므로 훨씬 저렴하게 (적은 커버리지로) 수행할 수 있다. 1000 genomes project의 경우, 4-5 정도의 커버리지를 사용한다. 단, 목적에 따라 더 많은 커버리지가 필요할 수 있다. haplotype (대립 유전체) 를 찾아낼 때가 그러한 경우다. 사람의 염색체는 2n=46개이고, 이를 diploid (배수체) 라 한다. 각각의 대립 염색체 n을 haploid (반수체) 라 한다. 40~50정도의 커버리지로 시퀀싱을 하면, 참조 유전체에 대해 비교했을 때 특정 염기에 대해 5:5의 비율로 변이가 발생하는 경우가 나오고 이를 haplotype이라고 추정할 수 있다. (참조 유전체가 haploid이므로 이렇게 된다)

1. Overview

개인 유전체 변이 분석은 아직 신뢰성이 확보되지 않았다. 안젤리가 졸리가 유전체 분석을 통해 유방암 발병 위험률 60% 판정을 받고 예방적 절제술을 선택하여 많은 이슈가 되었다. 미국의 FDA는 이러한 개인 유전자 검사 키트의 검증되지 않은 신뢰성을 이유로 판매에 앞서 공식 승인 절차를 도입하였다.

이러한 이슈에도 불구하고, 개인 유전체 검사는 이미 대세이며 앞으로도 지속적으로 발전할 분야다. 이를 위해, 통계적 유의성을 갖는 수많은 SNP중에 의학적으로 더 중요한 SNP들을 찾아내기 위해 다양한 알고리즘들이 제시되었다. 이 챕터에서는 SNP를 해석하기 위한 방법론들에 대해 다룬다.

2. SNP Prioritization

GWAS (Genome-Wide Association Study)

Genotype(SNP; 유전형)과 phenotype(표현형)의 연관성 분석 기법. 여러 genotype과 phenotype을 수집하여, 카이제곱 검정을 통해 통계적으로 유의미한 연관관계를 찾아낸다.

그런데, 이렇게 찾아낸 “통계적으로 유의한” SNP 들이 전부 정말로 유의한 SNP인가?
그렇지 않으므로, 좀 더 중요한 SNP들을 선별할 필요가 있다! => SNP Prioritization.

SPOT

SPOT은 통계적 유의성에 더하여, SNP에 관련된 여러 생물학적 정보들을 Genomic Information Network (GIN) 방식으로 통합하여 SNP를 순위화하는 웹 기반의 분석툴이다. p-value (통계적 유의성 정보) 뿐만 아니라 SNP의 유전체 상 위치 (exon인지 intron인지), 아미노산의 변화 여부, 전화론적 서열 보전 여부 (다른 종들에서도 공통적으로 나타나는 서열이라면 중요한 서열일 가능성이 높다) 등을 고려한다. 또한, 입력된 SNP와 통계적으로 연관 관계에 있는 (LD, Linkage Disequilibrium) 다른 SNP들도 함께 고려한다.

3. 유전학적 질병 위험률 예측 방법

Prediction of Disease Risk. 크게 세 가지 방법이 있다.

Prediction algorithm by Ashley

문헌으로부터 genotype(유전형) - case(실험군; 발병 케이스) - control(대조군; 노멀 케이스) 정보를 수집하여 genotype의 발병률을 계산하고, 이를 전체 인종의 발병률과 비교하여 질병의 사후확률(posterior) 즉 질병의 위험률을 계산할 수 있다.

Interpretome 또는 Promethease을 이용한 예측

각 툴에 개인 유전체 변이 (SNP) 를 입력하면 질병 연관성 및 위험률을 알려준다.

4. 개인 유전체 해석을 위한 자원

Resources for personal genomics. dbGaP, SNPedia, PheGenI 등이 있다.

  • dbGaP: 유전형과 표현형 사이의 연관성을 연구한 결과를 저장해 놓은 NCBI 데이터베이스.
  • SNPedia: 서열변이와 관련된 질병 및 원인 정보를 제공.
  • PheGenI: 유전형-표현형 상관분석 데이터를 기반으로 하는 GWAS Catalog와 NCBI의 다양한 유전체 데이터베이스를 통합하여 제공하는 통합검색 사이트.

5. 질병 관련 서열변이 분석

Analysis for disease-related polymorphism. 책에서는 1000 genome project의 데이터 (VCF 파일) 를 ANNOVAR 기반으로 분석한다. 병을 갖고 있는 자녀의 원인이 될 수 있는 개인 희귀변이를 찾는다. ANNOVAR는 변이에 annotation을 해주는 툴이다. ANNOVAR의 각 단계는 다음과 같다:

  1. Splicing site 또는 exonic region에 존재하는 변이만 탐색. 즉, 단백질 기능에 직접적으로 영향을 미치는 변이들만 추린다. Splicing cite는 엑손과 인트로의 경계로, 여기서 변이가 발생하면 인트론이 단백질 생성에 관여할 수 있어서 위험도가 높다.
  2. Conserved region에 있는 변이만 탐색. Conserved region은 여러 종에 걸쳐 동일하게 보존되는 유전서열로서 중요도가 높은 부분으로 알려져 있다.
  3. Segmental duplication region에 있는 변이는 제외. Segmental duplication region은 비슷한 단편서열이 계속 반복되는 부분으로 (e.g. ATATAT … ATAT), 큰 영향이 없다고 알려져 있다.
  4. 1000 genome project에서 알려진 변이는 제거. 즉 정상으로 알려진 변이는 제거한다.
  5. 이미 알려져서 dbSNP에 등록된 변이는 제외
  6. 남은 변이를 유전자에 맵핑
  7. 변이가 많이 발견된 유전자 리스트 작성

ANNOVAR에서는 이 과정을 선택적으로 수행할 수 있으며, 책의 실습에서는 이 과정을 특정 가계 데이터 (부모/자식 데이터) 를 기반으로 수행하여 Mendelian disease (유전적 질병) 인 HSP (hereditary spastic paraparesis; 유전적 경련성 하반신 마비) 에 관련 있는 유전자를 찾았다.



표현형에 영향을 준다고 알려진 유전자 목록 분석

이렇게 찾아낸 유전자 리스트 기반으로, Gene Prioritization 작업을 통해 가장 유의한 유전자를 찾는다. ToppGene이라는 웹 툴을 사용한다.

질문

Q. 왜 Recessive(열성) disease 로 넘어가는가? (열성유전이라는 건 hsp에 대해 기존에 알고 있던 지식인가?)

A. 당연함. 부모는 둘다 병이 없는데 자식은 병이 있으니.

Q. 최종적으로 작성된 유전자 리스트가 VWA3B, CGREF1, BMPR2, KIF1A 인데, 이게 뭐지? 유전자 이름임. 유전자는 전부 다 이름이 있나? 유전자라는게 뭐지?

Q. ToppGene 은 어떻게 쓰는 거지?

'DataScience > Bioinformatics' 카테고리의 다른 글

유전체 데이터 분석 (3)  (0) 2015.10.30
유전체 데이터 분석 (2)  (0) 2015.10.19
유전체 데이터 분석 (1)  (0) 2015.10.06
유전체 데이터 분석 (0) - Intro  (0) 2015.10.06