'DataScience/Bioinformatics'에 해당되는 글 4건

  1. 유전체 데이터 분석 (3)
  2. 유전체 데이터 분석 (2)
  3. 유전체 데이터 분석 (1)
  4. 유전체 데이터 분석 (0) - Intro

유전체 데이터 분석 (3)

개인 유전체 데이터의 해석과 질병 위험률 분석

Personal genome interpretation and disease risk prediction

0. 들어가기 전에

Sequence assembly & alignment

“Whole genome sequence” (전장유전체, 총유전체) 를 한번에 시퀀싱 할 수 있는 기술이 없다는 것이 문제의 발단이다. 현재까지의 기술로는 DNA 시퀀싱을 길게 할 수록 퀄리티가 감소하여 신뢰도있는 시퀀싱은 단편서열만이 추출 가능하다. Sanger sequencing은 약 500~1000bp (base pair; 염기쌍) 정도, NGS (HTS, high-throughput sequencing) 는 50~300bp 정도의 단편서열을 추출한다. NGS가 더 작은 서열을 추출하지만 훨씬 저렴한 가격으로 대량생산이 가능하여 Sanger sequencing이 NGS로 대체되었다.

Whole genome assembly

이렇게 한번에 whole genome을 추출할 수 없으므로 이를 부분부분 추출하여 전체 지도를 만드는 것을 whole genome assembly라 한다. 인간의 유전자 지도를 만들어낸 Human genome project (HGP) 가 바로 이 whole genome assembly 프로젝트였으며 2000년에 초기 지도가 발표되었다. 이 작업은 참조유전체가 존재하지 않으므로 시퀀스 리드 (read; 단편서열) 간의 overlap에 근거하여 위치를 판별한다. 이를 위해 최소 30 이상의 coverage (= depth) 가 필요하다.

Whole genome re-alignment

이렇게 생성한 참조유전체를 기반으로 하여 개인의 유전체의 변이를 판별하는 작업을 re-alignment라 한다. 참조유전체가 있으므로 훨씬 저렴하게 (적은 커버리지로) 수행할 수 있다. 1000 genomes project의 경우, 4-5 정도의 커버리지를 사용한다. 단, 목적에 따라 더 많은 커버리지가 필요할 수 있다. haplotype (대립 유전체) 를 찾아낼 때가 그러한 경우다. 사람의 염색체는 2n=46개이고, 이를 diploid (배수체) 라 한다. 각각의 대립 염색체 n을 haploid (반수체) 라 한다. 40~50정도의 커버리지로 시퀀싱을 하면, 참조 유전체에 대해 비교했을 때 특정 염기에 대해 5:5의 비율로 변이가 발생하는 경우가 나오고 이를 haplotype이라고 추정할 수 있다. (참조 유전체가 haploid이므로 이렇게 된다)

1. Overview

개인 유전체 변이 분석은 아직 신뢰성이 확보되지 않았다. 안젤리가 졸리가 유전체 분석을 통해 유방암 발병 위험률 60% 판정을 받고 예방적 절제술을 선택하여 많은 이슈가 되었다. 미국의 FDA는 이러한 개인 유전자 검사 키트의 검증되지 않은 신뢰성을 이유로 판매에 앞서 공식 승인 절차를 도입하였다.

이러한 이슈에도 불구하고, 개인 유전체 검사는 이미 대세이며 앞으로도 지속적으로 발전할 분야다. 이를 위해, 통계적 유의성을 갖는 수많은 SNP중에 의학적으로 더 중요한 SNP들을 찾아내기 위해 다양한 알고리즘들이 제시되었다. 이 챕터에서는 SNP를 해석하기 위한 방법론들에 대해 다룬다.

2. SNP Prioritization

GWAS (Genome-Wide Association Study)

Genotype(SNP; 유전형)과 phenotype(표현형)의 연관성 분석 기법. 여러 genotype과 phenotype을 수집하여, 카이제곱 검정을 통해 통계적으로 유의미한 연관관계를 찾아낸다.

그런데, 이렇게 찾아낸 “통계적으로 유의한” SNP 들이 전부 정말로 유의한 SNP인가?
그렇지 않으므로, 좀 더 중요한 SNP들을 선별할 필요가 있다! => SNP Prioritization.

SPOT

SPOT은 통계적 유의성에 더하여, SNP에 관련된 여러 생물학적 정보들을 Genomic Information Network (GIN) 방식으로 통합하여 SNP를 순위화하는 웹 기반의 분석툴이다. p-value (통계적 유의성 정보) 뿐만 아니라 SNP의 유전체 상 위치 (exon인지 intron인지), 아미노산의 변화 여부, 전화론적 서열 보전 여부 (다른 종들에서도 공통적으로 나타나는 서열이라면 중요한 서열일 가능성이 높다) 등을 고려한다. 또한, 입력된 SNP와 통계적으로 연관 관계에 있는 (LD, Linkage Disequilibrium) 다른 SNP들도 함께 고려한다.

3. 유전학적 질병 위험률 예측 방법

Prediction of Disease Risk. 크게 세 가지 방법이 있다.

Prediction algorithm by Ashley

문헌으로부터 genotype(유전형) - case(실험군; 발병 케이스) - control(대조군; 노멀 케이스) 정보를 수집하여 genotype의 발병률을 계산하고, 이를 전체 인종의 발병률과 비교하여 질병의 사후확률(posterior) 즉 질병의 위험률을 계산할 수 있다.

Interpretome 또는 Promethease을 이용한 예측

각 툴에 개인 유전체 변이 (SNP) 를 입력하면 질병 연관성 및 위험률을 알려준다.

4. 개인 유전체 해석을 위한 자원

Resources for personal genomics. dbGaP, SNPedia, PheGenI 등이 있다.

  • dbGaP: 유전형과 표현형 사이의 연관성을 연구한 결과를 저장해 놓은 NCBI 데이터베이스.
  • SNPedia: 서열변이와 관련된 질병 및 원인 정보를 제공.
  • PheGenI: 유전형-표현형 상관분석 데이터를 기반으로 하는 GWAS Catalog와 NCBI의 다양한 유전체 데이터베이스를 통합하여 제공하는 통합검색 사이트.

5. 질병 관련 서열변이 분석

Analysis for disease-related polymorphism. 책에서는 1000 genome project의 데이터 (VCF 파일) 를 ANNOVAR 기반으로 분석한다. 병을 갖고 있는 자녀의 원인이 될 수 있는 개인 희귀변이를 찾는다. ANNOVAR는 변이에 annotation을 해주는 툴이다. ANNOVAR의 각 단계는 다음과 같다:

  1. Splicing site 또는 exonic region에 존재하는 변이만 탐색. 즉, 단백질 기능에 직접적으로 영향을 미치는 변이들만 추린다. Splicing cite는 엑손과 인트로의 경계로, 여기서 변이가 발생하면 인트론이 단백질 생성에 관여할 수 있어서 위험도가 높다.
  2. Conserved region에 있는 변이만 탐색. Conserved region은 여러 종에 걸쳐 동일하게 보존되는 유전서열로서 중요도가 높은 부분으로 알려져 있다.
  3. Segmental duplication region에 있는 변이는 제외. Segmental duplication region은 비슷한 단편서열이 계속 반복되는 부분으로 (e.g. ATATAT … ATAT), 큰 영향이 없다고 알려져 있다.
  4. 1000 genome project에서 알려진 변이는 제거. 즉 정상으로 알려진 변이는 제거한다.
  5. 이미 알려져서 dbSNP에 등록된 변이는 제외
  6. 남은 변이를 유전자에 맵핑
  7. 변이가 많이 발견된 유전자 리스트 작성

ANNOVAR에서는 이 과정을 선택적으로 수행할 수 있으며, 책의 실습에서는 이 과정을 특정 가계 데이터 (부모/자식 데이터) 를 기반으로 수행하여 Mendelian disease (유전적 질병) 인 HSP (hereditary spastic paraparesis; 유전적 경련성 하반신 마비) 에 관련 있는 유전자를 찾았다.



표현형에 영향을 준다고 알려진 유전자 목록 분석

이렇게 찾아낸 유전자 리스트 기반으로, Gene Prioritization 작업을 통해 가장 유의한 유전자를 찾는다. ToppGene이라는 웹 툴을 사용한다.

질문

Q. 왜 Recessive(열성) disease 로 넘어가는가? (열성유전이라는 건 hsp에 대해 기존에 알고 있던 지식인가?)

A. 당연함. 부모는 둘다 병이 없는데 자식은 병이 있으니.

Q. 최종적으로 작성된 유전자 리스트가 VWA3B, CGREF1, BMPR2, KIF1A 인데, 이게 뭐지? 유전자 이름임. 유전자는 전부 다 이름이 있나? 유전자라는게 뭐지?

Q. ToppGene 은 어떻게 쓰는 거지?

'DataScience > Bioinformatics' 카테고리의 다른 글

유전체 데이터 분석 (3)  (0) 2015.10.30
유전체 데이터 분석 (2)  (0) 2015.10.19
유전체 데이터 분석 (1)  (0) 2015.10.06
유전체 데이터 분석 (0) - Intro  (0) 2015.10.06

유전체 데이터 분석 (2)

개인 유전체 데이터와 변이 서열의 분석

Personal Genome Data Analysis. 이번 챕터는 실습 챕터로, NGS를 통해 뽑아낸 개인 유전체 변이 서열을 분석하는 과정이다. 실습 챕터로, 직접 해보는 것이 의미가 있을 듯 하다. 이 포스트에서는 간단하게 소개한다. 개인 유전체 변이를 분석하여, 어떤 질병 및 약물과 관련이 있는지를 판별하고, 인구집단 내 변이 분포까지 알아본다.

1. 기초

  • 주석달기(annotation) : 범용적으로 쓰이는 용어로써, 변이의 의미를 정리한 것을 주석이라고 하는 듯 하다. 실질적으로 주석달기와 해석 또는 분석은 거의 비슷한 의미인 듯. “염기서열 변이 정보를 기존 데이터베이스(dbSNP)와 비교하여 이미 밝혀진 변이인지 새롭게 발견된 변이인지 판단하게 된다. 그리고 그 변이가 아미노산의 변화를 가져올 것인지 아닌지, 또한 단백질 구조에 있어서 어떤 영향을 줄 것인지 예측하게 된다. 이 과정을 주석달기(Annotation)라고 한다.” Hardboiled Wonderland 펌.

2. SNPedia와 프로메테이즈 (Promethease) 를 이용한 서열변이 주석달기와 해석

SNPedia

SNPedia는 이름에서도 보이듯이 SNP에 대한 백과사전이다. RSID로 검색하면, 해당 SNP에 대한 내용을 알 수 있다.



위 이미지는 Rs6152의 SNPedia annotation으로, 대머리(baldness) 에 대한 SNP이다. 변이에 따라 대머리 발현 정도가 달라진다.

Promethease

Sample Data:

# 23andMe
# rsid      chromosome  position    genotype
rs12255372  10          114808902   GT
rs12255372  10          114808902   TT
rs6152      X           66765627    GG
rs9939609   16          53820527    AA

서열변이를 분석하기 위한 샘플 데이터는 형식이 전체적으로 비슷하다. RSID는 Reference SNP cluster ID의 약자로 각 SNP의 분류번호다. chromosome과 position은 어떤 염색체, 어느 위치에서 발생한 변이인지를 가리키고 genotype은 변이가 발생한 유전자의 genotype을 가리킨다.

프로메테이즈는 이 샘플 데이터를 기반으로 annotation을 수행한다. 선택한 인구 집단(population)에 대해, 이 변이가 갖는 특성을 good/bad/interesting으로 분류하여 알려준다. interesting은 머리 색과 같이 좋고 나쁨을 구분할 수 없는 분류다. good SNP 가 신기할 수 있는데, 감칠맛을 더 잘 느낀다던가, 병에 강하다던가 공간감각이 강하다던가 하는 등의 변이들이 존재한다.

3. SIFT와 KEGG DISEASE를 활용한 희귀변이의 질병상관석 해석

SIFT

SIFT는 단백질 코딩 서열의 변이가 해당 단백질의 기능을 얼마나 손상시키는지를 정량적으로 측정한다. 위와 비슷한 변이 데이터를 넣으면, 해당 변이들이 단백질에 손상을 주는지 아닌지를 판별해준다.

KEGG DISEASE Pathway mapping

이렇게 추출한 단백질에 손상에 주는 변이들과 질병 사이의 관련성을 검정해 볼 수 있다. 어떤 질병과 관련이 있다고 가정하고, 초기하 분포검정 (hypergeometric test) 를 통해 통계학적 유의성을 평가한다. 책의 예제에서는 결장암 (colorectal cancer) 를 사용한다:

  1. SIFT를 통해 추출한 단백질에 손상을 주는 변이들을 damaged genes라 하고, 결장암과 관련이 있다고 가정한다.
  2. 결장암 관련 유전자들과 damaged genes의 교집합을 찾는다.
  3. 이 결과를 초기하분포검정을 통해 가설이 맞는지 검정한다.

4. 약물유전체 분석

Interpretome 에 개인 유전체 변이를 입력하면 해당 변이가 어떤 약물에 어떻게 반응하는지를 알려준다.

5. 인구집단 내 변이 분포 구하기

VCFtools를 이용하여 인구집단 내 변이 분포를 구할 수 있다.

'DataScience > Bioinformatics' 카테고리의 다른 글

유전체 데이터 분석 (3)  (0) 2015.10.30
유전체 데이터 분석 (2)  (0) 2015.10.19
유전체 데이터 분석 (1)  (0) 2015.10.06
유전체 데이터 분석 (0) - Intro  (0) 2015.10.06

유전체 데이터 분석 (1)

Chap 2. 차세대 시퀀싱 기술과 개인 유전체 시대의 개막

1. 기초

DNA

  • DNA: 데옥시리보 핵산 (Deoxyribonucleic acid)
    핵산의 일종이며 세포의 핵 안에서 생물의 유전 정보를 저장. 네 종류의 뉴클레오타이드가 중합되어 이중 나선 구조를 이룸
  • 뉴클레오타이드(nucleotide): 뉴클레오타이드는 염기 + 당 + 인산기로 구성되어 있다.
  • DNA의 염기는 4종류로 A(아데닌), G(구아닌), C(시토신), T(티민)이다. RNA는 T대신 U(우라실)을 사용한다.
  • NGS: Next Generation Sequencing. 한국말론 차세대 시퀀싱. 염기서열 분석 작업을 시퀀싱이라 하는데, AGCT의 순서를 결정하는 데 사용되는 모든 방법 및 기술을 말한다.
  • 참조(reference) 유전체: 수십억 달러를 들여 제임스 왓슨의 DNA 염기서열 정보를 파악한 것. 개개인의 유전체 분석을 이렇게 다 할수는 없기 때문에 이 참조 유전체를 기반으로 분석한다.
  • SNP: Single Nucleotide Polymorphism. 1 염기쌍 변이.
  • InDels: Insert and Deletion. 1~100 염기쌍 변이.
  • SVs: > 1000 염기쌍 변이.
  • 코딩 영역(coding region): 전체 DNA 중 2~3%정도이며 단백질 합성에 관여하는 부분.
  • 비코딩 영역(non-coding region): 단백질 합성에 관여하지 않지만 코딩 영역의 작용을 제어함.

DNA 시퀀싱 (sequencing) 이란?

염기 ATGC 의 결합 순서를 알아내는 기술. Sanger method가 일반적이었으나 현재는 NGS method가 일반적임. Single Molecule 시퀀싱, Nanopore 시퀀싱 등 3세대 시퀀싱 방법론들도 제안되고 있다. 현재 개인 게놈 시퀀싱은 일주일 정도의 시간이 소모되지만 3세대 시퀀싱 기술이 일반화되면 수천~수백 달러의 비용으로 수십분 안에 가능할 것으로 예측된다.

2. 데이터 포멧

염기서열을 나타내는 FASTQ 포멧, CSFASTA 포멧 등이 있음. 포멧은 어떤 장비를 쓰냐에 따라 결정된다. 또한 데이터의 질을 나타내는 QV (Quality Value) 까지 포함하여 전체 데이터가 구성된다. QV는 “Phred quality score”의 개념을 따르는데, 이 개념은 에러율에 로그를 취하여 10은 10%의 에러율, 20은 1%의 에러율, 30은 0.1%의 에러율을 의미한다. 단, QV는 개념은 동일하지만 장비마다 분석법이 다르기 때문에 절대적인 비교는 위험하다.

3. 차세대 염기서열 데이터의 서열정렬

전체 30억여 개의 염기서열을 한번에 관측하는 것이 불가능하기 때문에, 염기서열을 부분부분 잘라 여러번에 걸쳐 관측한다. 이렇게 관측한 단편서열은 참조 유전체와 비교하는데, 이 비교 작업을 위해서는 이 단편서열이 참조 유전체의 어느 부분에 해당하는지를 파악해야 한다. 이를 정렬(aligning) 또는 매핑(mapping)이라 하는데, 이 책에서는 서열정렬 이라고 부르는 것 같다.

결국 개인의 유전체 분석을 위해서는 이 서열정렬이 필수적이고, 자연스럽게 고속 서열정렬 알고리즘에 대한 연구가 많이 진행되어 왔다. 대부분 인덱스(index) 기반 검색을 활용한다. 책에서는 해쉬 기반 서열정렬과 서픽스 트리 기반 서열정렬을 소개하고 있다.

4. SNP와 INDEL 검출

개인 서열을 분석하기 위해 서열정렬 후 필수적으로 수행되는 작업이다. 최근의 SNP 및 InDel 검출은 통계적 방법론을 적용하게 발전하였는데, 여전히 Gold standard가 존재하지 않으며 데이터의 특성과 분석 목적에 따라 시행착오를 거쳐 특성화할 필요가 있다.

5. 서열변이(sequence variation) 주석달기(annotation) 및 기능 예측

5.1. 흔한변이(common variants) 의 주석달기와 의학적 해석

시퀀싱을 마치고 서열정렬 작업을 수행 한 후의 개인 유전체 데이터의 크기는 약 3GB 정도이지만, 참조 유전체를 기반으로 각 변이의 위치와 SNP, InDel, SV 등의 차이 정보만을 저장하면 약 4MB 까지 데이터 압축이 가능하다.
일반적으로 한 사람의 유전체 데이터에서 300만~400만 개의 변이가 검출된다.

5.2. 희귀변이(rare variants) 의 주석달기와 의학적 해석

코딩 영역을 분석하는 SIFT, PolyPhen, PhD-SNP 과 비코딩 영역을 분석하는 VAAST 등이 있다.

5.3. KEGG DISEASE Pathway mapping

KEGG pathway
KEGG는 질병을 분자생물학적 시스템의 한 흔들린 상태(perturbed state)로 본다. 각 질병은 single-gene (monogenic), multifactorial, infectious(감염성) 의 3가지 타입으로 분류된다. 각 질병들은 유전적 요인 (genetic factor; disease genes), 환경적 요인 (environmental factor), 진단지표(diagnostic marker), 치료약물(therapeutic drug) 그리고 유전체 바이오마커(genomic biomarker)를 하나로 묶어 질병 패스웨이 지도 (disease pathway map) 단위로 표기한다. 이를 이용하면 유전체 변이와 질병의 다양한 요소들을 서로 연관지어 분석할 수 있다.

5.4. 약물유전체학 (Pharmacogenomics)

개인의 유전적 다양성에 따른 약물 반응의 다양성을 연구하는 분야.

5.5. 인구집단 유전체 변이 분포 구하기

2008년에 시작된 1000명 유전체 사업 (1000 Genomes Project) 등 인구집단별 변이 분포에 대한 연구분야.

질문

Q. 시퀀싱과 서열정렬
서열정렬이란 여러 부분 유전체들의 순서를 맞추는 작업을 말하는 것 같은데, 그렇다면 시퀀싱이란 무엇인가? 서열정렬이 시퀀싱 안에 포함되는 작업인가?
A. 시퀀싱은 범용적으로 사용되는 개념이라고 한다. 단편서열들을 뽑아내는 과정에서 순서와 위치를 알 수 없게 되는데 이를 맞추는 작업이 서열정렬이다.

Q. 단편서열로 관측한다는건 알겠는데 그럼 이렇게 전체 30억개를 다 관측하는것?
A. 그렇다. 더 자세하게는, 오차를 줄이기 위해 30억 * depth만큼 관찰한다. 이 depth는 보통 30정도 되며, 1000 Genomes Project 같은 대규모 사업에서는 어차피 집단의 변이 분포에 대한 연구이기 때문에 어느정도의 오차는 허용할 수 있으므로 4~5정도 된다고 한다.
depth란, 시퀀싱 작업에서 오차가 발생할 수 있고, 위치를 찾는 서열정렬 작업에서도 가능성이 많기 때문에 (특정 단편서열에 대해, 해당 단편서열의 위치를 추정하여 배치하는데 이 추정이 모호할 수 있다) 이 오차를 최소화하기 위해서 여러번의 중복관측을 수행하는 것이다. 이 depth 만큼의 중복관측 결과를 서열정렬하여 배치하면, 더욱 정확한 시퀀싱을 수행할 수 있다.

Q. SNP, InDel, SV를 잘 모르겠음. 그냥 변이 개수 차이인가?
A. 연속적인 변이 개수 차이라고 생각하면 된다. SNP는 1개라서 특별히 구분하고, InDel과 SV는 잘 구분하지 않고 큰 덩어리의 변이 라는 개념으로 묶어서 보면 된다고 한다.

'DataScience > Bioinformatics' 카테고리의 다른 글

유전체 데이터 분석 (3)  (0) 2015.10.30
유전체 데이터 분석 (2)  (0) 2015.10.19
유전체 데이터 분석 (1)  (0) 2015.10.06
유전체 데이터 분석 (0) - Intro  (0) 2015.10.06

유전체 데이터 분석 (0) - Intro

유전체 데이터 분석

책

유전체 데이터 분석 1 기초편. 김주한 저. 이 책으로 스터디를 하게 되어 매 주 정리하기로 한다. 나는 CS전공인 데다 생물에 원래 관심이 없어 생물학에 대한 배경지식이 전무한 수준이라, 이 정리 내용에 잘못된 부분이 있을 수 있다.

'DataScience > Bioinformatics' 카테고리의 다른 글

유전체 데이터 분석 (3)  (0) 2015.10.30
유전체 데이터 분석 (2)  (0) 2015.10.19
유전체 데이터 분석 (1)  (0) 2015.10.06
유전체 데이터 분석 (0) - Intro  (0) 2015.10.06