유전체 데이터 분석 (2)

개인 유전체 데이터와 변이 서열의 분석

Personal Genome Data Analysis. 이번 챕터는 실습 챕터로, NGS를 통해 뽑아낸 개인 유전체 변이 서열을 분석하는 과정이다. 실습 챕터로, 직접 해보는 것이 의미가 있을 듯 하다. 이 포스트에서는 간단하게 소개한다. 개인 유전체 변이를 분석하여, 어떤 질병 및 약물과 관련이 있는지를 판별하고, 인구집단 내 변이 분포까지 알아본다.

1. 기초

  • 주석달기(annotation) : 범용적으로 쓰이는 용어로써, 변이의 의미를 정리한 것을 주석이라고 하는 듯 하다. 실질적으로 주석달기와 해석 또는 분석은 거의 비슷한 의미인 듯. “염기서열 변이 정보를 기존 데이터베이스(dbSNP)와 비교하여 이미 밝혀진 변이인지 새롭게 발견된 변이인지 판단하게 된다. 그리고 그 변이가 아미노산의 변화를 가져올 것인지 아닌지, 또한 단백질 구조에 있어서 어떤 영향을 줄 것인지 예측하게 된다. 이 과정을 주석달기(Annotation)라고 한다.” Hardboiled Wonderland 펌.

2. SNPedia와 프로메테이즈 (Promethease) 를 이용한 서열변이 주석달기와 해석

SNPedia

SNPedia는 이름에서도 보이듯이 SNP에 대한 백과사전이다. RSID로 검색하면, 해당 SNP에 대한 내용을 알 수 있다.



위 이미지는 Rs6152의 SNPedia annotation으로, 대머리(baldness) 에 대한 SNP이다. 변이에 따라 대머리 발현 정도가 달라진다.

Promethease

Sample Data:

# 23andMe
# rsid      chromosome  position    genotype
rs12255372  10          114808902   GT
rs12255372  10          114808902   TT
rs6152      X           66765627    GG
rs9939609   16          53820527    AA

서열변이를 분석하기 위한 샘플 데이터는 형식이 전체적으로 비슷하다. RSID는 Reference SNP cluster ID의 약자로 각 SNP의 분류번호다. chromosome과 position은 어떤 염색체, 어느 위치에서 발생한 변이인지를 가리키고 genotype은 변이가 발생한 유전자의 genotype을 가리킨다.

프로메테이즈는 이 샘플 데이터를 기반으로 annotation을 수행한다. 선택한 인구 집단(population)에 대해, 이 변이가 갖는 특성을 good/bad/interesting으로 분류하여 알려준다. interesting은 머리 색과 같이 좋고 나쁨을 구분할 수 없는 분류다. good SNP 가 신기할 수 있는데, 감칠맛을 더 잘 느낀다던가, 병에 강하다던가 공간감각이 강하다던가 하는 등의 변이들이 존재한다.

3. SIFT와 KEGG DISEASE를 활용한 희귀변이의 질병상관석 해석

SIFT

SIFT는 단백질 코딩 서열의 변이가 해당 단백질의 기능을 얼마나 손상시키는지를 정량적으로 측정한다. 위와 비슷한 변이 데이터를 넣으면, 해당 변이들이 단백질에 손상을 주는지 아닌지를 판별해준다.

KEGG DISEASE Pathway mapping

이렇게 추출한 단백질에 손상에 주는 변이들과 질병 사이의 관련성을 검정해 볼 수 있다. 어떤 질병과 관련이 있다고 가정하고, 초기하 분포검정 (hypergeometric test) 를 통해 통계학적 유의성을 평가한다. 책의 예제에서는 결장암 (colorectal cancer) 를 사용한다:

  1. SIFT를 통해 추출한 단백질에 손상을 주는 변이들을 damaged genes라 하고, 결장암과 관련이 있다고 가정한다.
  2. 결장암 관련 유전자들과 damaged genes의 교집합을 찾는다.
  3. 이 결과를 초기하분포검정을 통해 가설이 맞는지 검정한다.

4. 약물유전체 분석

Interpretome 에 개인 유전체 변이를 입력하면 해당 변이가 어떤 약물에 어떻게 반응하는지를 알려준다.

5. 인구집단 내 변이 분포 구하기

VCFtools를 이용하여 인구집단 내 변이 분포를 구할 수 있다.

'DataScience > Bioinformatics' 카테고리의 다른 글

유전체 데이터 분석 (3)  (0) 2015.10.30
유전체 데이터 분석 (2)  (0) 2015.10.19
유전체 데이터 분석 (1)  (0) 2015.10.06
유전체 데이터 분석 (0) - Intro  (0) 2015.10.06