본문 바로가기
진단검사의학과/분자유전학

Next-Generation Sequencing NGS - 임상병리사

by 병리맨 2023. 6. 21.
반응형
NGS에 대해서

 NGS, Next-Generation Sequencing의 약자로, 다음 세대 시퀀싱 기술을 의미합니다. 이 기술은 DNA 분석 방법 중 하나로, 고속의 염기서열 분석을 가능하게 하여 대규모 염기서열 데이터를 생성할 수 있습니다. 이를 활용하면, 유전체 분석, 변이 검출, 폐기물 관리, 의료진단 등 다양한 분야에서 활용되고 있습니다.

 

상업적으로 이용 가능한 여러 NGS 플랫폼이 있으며 각각 고유한 시퀀싱 화학 및 워크플로우가 있습니다. 일부 인기 있는 플랫폼에는 Illumina(예: HiSeq, NovaSeq), Ion Torrent(Thermo Fisher Scientific), PacBio(Pacific Biosciences)  Oxford Nanopore Technologies가 포함됩니다. 이러한 플랫폼은 판독 길이, 처리량, 오류율 및 비용이 다르기 때문에 특정 연구 요구에 가장 적합한 플랫폼을 선택할 수 있습니다.

 

NGS  과정

NGS 데이터 분석은 크게 네 단계로 이루어집니다. 첫째, Raw 데이터 QC과정입니다. NGS 기기에서 생성된 염기서열 데이터는 quality control 과정을 거치는 것이 일반적입니다. 이 단계에서는 염기서열의 질을 평가하고 필요시 중복, 어머니 라인 여부 등을 체크합니다. 둘째, 데이터 전처리 과정입니다. 이 단계에서는 편집과 절단, 필터링, 염기서열정렬 등의 작업을 수행합니다. 셋째, 데이터 분석 과정입니다. 이 단계에서는 다양한 분석 방법론을 사용하여 RNA-seq, ChIP-seq, DNA Methylation, Variant Calling 등 분석을 진행합니다. 넷째, 결과 보고 과정입니다. 이 단계에서는 분석 결과를 시각화하고 분석 보고서를 작성합니다. NGS 분석은 과학적인 지식과 높은 수준의 데이터 처리 기술이 필요하기 때문에 전문가의 도움을 받는 것이 일반적입니다.

 

시퀀싱

NGS는 수백만에서 수십억 개의 DNA 조각을 동시에 시퀀싱할 수 있어 높은 처리량 분석이 가능합니다. 이 대규모 병렬 시퀀싱 접근 방식은 NGS를 한 번에 하나의 DNA 조각만 시퀀싱하는 전통적인 Sanger 시퀀싱과 구별됩니다.

 

DNA 조각화

NGS에서 관심 있는 DNA는 먼저 더 짧은 조각으로 조각납니다. 이러한 조각은 특정 시퀀싱 플랫폼 및 응용 프로그램에 따라 길이가 약 100-500 염기쌍인 경우가 많습니다.

 

라이브러리 준비

조각화 후 특수 어댑터가 DNA 조각 끝에 추가됩니다. 이러한 어댑터에는 DNA 증폭, 클러스터 생성 및 시퀀싱과 같은 NGS 워크플로의 후속 단계에 필요한 시퀀스가 ​​포함되어 있습니다.

 

클러스터 생성

부착된 어댑터와 함께 DNA 조각이 증폭되고 고체 지지대(: 유리 슬라이드 또는 유동 셀)에 고정됩니다. 그 결과 클론 클러스터가 형성되며 각 클러스터는 동일한 DNA 단편의 수천 개의 사본으로 구성됩니다.

 

합성에 의한 시퀀싱

대부분의 NGS 플랫폼은 시퀀싱에 의한 합성 방법을 사용합니다. 이 과정에서 형광 표지된 뉴클레오티드가 고정된 DNA 클러스터에 추가되고 통합된 뉴클레오티드는 각 염기가 시퀀싱될 때 검출됩니다. 형광 신호가 캡처되고 기록되어 DNA 서열을 결정할 수 있습니다.

 

리드 길이 및 깊이

NGS 플랫폼은 일반적으로 수십에서 수백 개의 기본 쌍 범위에 이르는 다양한 길이의 시퀀싱 리드를 생성할 수 있습니다. DNA의 특정 영역이 시퀀싱되는 횟수를 깊이 또는 적용 범위라고 합니다. 적용 범위가 높을수록 시퀀스 데이터의 정확성에 대한 신뢰도가 높아집니다.

 

 

 

NGS 분석 기술

NGS 분석에 사용되는 데이터 처리 기술은 크게 두 가지로 분류할 수 있습니다. 첫째, 데이터 전처리 기술입니다. 데이터 전처리는 손상된 샘플, 염기서열에서 나타나는 잡음, 이기종 교잡 등으로 인해 발생하는 오류를 줄이고, 데이터 정확도를 높일 수 있는 기술입니다. 예를 들어 염기서열 분석 시 사용되는 데이터 전처리 기술로는 품질 제어 과정, 염기서열 정렬과 일치성 판정, 중복 염기 서열 제거 등이 있습니다. 둘째, 분석 기술입니다. 분석 기술은 주어진 NGS 데이터에서 희귀 돌연변이, 유전자 발현 수준, 염색체 매핑 및 분할 분석 등 다양한 바이오인포매틱 작업에 적합한 추출과 데이터 처리 기술입니다. 예를 들어 RNA-seq 분석 시 많이 사용되는 분석 기술로는 Tophat, Cufflinks, EdgeR, DEseq 등이 있습니다. 이러한 데이터 전처리 기술과 분석 기술은 과학적인 지식과 높은 수준의 데이터 처리 기술이 필요하기 때문에 전문가의 도움을 받는 것이 일반적입니다.

 

단일 세포 시퀀싱
NGS는 단일 세포 시퀀싱 기술의 개발을 촉진했습니다. 전통적인 시퀀싱 방법은 대량 샘플에 의존했으며, 여기에서 여러 세포의 DNA가 함께 시퀀싱되어 세포 이질성을 마스킹했습니다. 단일 세포 염기서열 분석을 통해 개별 세포를 분석할 수 있으므로 세포 간 변이 연구, 희귀 세포 유형 식별, 발달, 질병 및 면역학에서 복잡한 세포 과정의 특성을 규명할 수 있습니다.
 
후성유전학적 분석
NGS DNA 염기서열 자체의 변화를 수반하지 않는 유전자 발현의 유전적 변화를 연구하는 후성유전학 분야에 크게 기여했습니다. ChIP-Seq(Chromatin Immunoprecipitation sequencing)  DNA 메틸화 시퀀싱(예: bisulfite sequencing)과 같은 기술을 통해 연구원은 히스톤 변형, DNA-단백질 상호 작용 및 DNA 메틸화 패턴을 게놈 전체에 매핑하여 유전자 조절 및 영향에 대한 통찰력을 제공합니다. 질병 발달 및 진행에 대한 후성적 변형.

 

Next-Generation Sequencing 판독

Next-Generation Sequencing (NGS) 판독은 크게 세 단계로 이루어집니다. 첫째, 원하는 DNA 라이브러리를 제작합니다. 라이브러리란, 염기서열을 조각내어 특정 유전자나 영역의 염기서열을 표시하는데 사용되는 줄기 모음입니다. 둘째, 제작된 라이브러리를 NGS 플랫폼에 적재하여 염기서열을 읽습니다. 이 과정에서 여러 개의 DNA 서열 세대를 동시에 판독할 수 있도록 내부적으로 다양한 기술들이 사용됩니다. 셋째, 판독된 염기서열 정보를 기반으로 필요한 데이터 분석을 수행합니다. 이를 위해서는 높은 수준의 데이터 처리 기술과 생물학적 지식이 요구됩니다. 이러한 NGS 기술은 대규모 유전체 분석, 질병원인 도출, 변이 검출 등 수많은 분자 생물학적 응용 분야에 폭넓게 활용되고 있습니다.

 
간단한 예시입니다.
 
 ID
Nucleotide Sequence
Quality
1
CTAGCTGACTCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
IIIGHFEDCBAAAAAAAAAAAAAAAAAAAA
2
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII
3
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
BAIIHHGFFEDCCBAAAAAAAAAAAAAAA
4
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
IIIIIIIIIIIIIIIIIIIIIIIIIIABA
5
TACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACG
AAAABBBCCCCCDDDDDEEFFFFFFFFF
6
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
GGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
7
CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGAT
IIHHGFFFFFFFFFFFFEEEEEEEDCCCC

각 행은 NGS 시퀀싱에서 얻은 다른 읽기를 나타냅니다. "ID" 열은 각 판독에 대한 고유 식별자를 나타내고 "Nucleotide Sequence" 열은 시퀀싱 프로세스에서 얻은 뉴클레오티드(A, T, G, C)의 시퀀스를 표시합니다. "Quality Scores" 열은 시퀀스에서 각 base calls의 정확성과 신뢰성에 대한 정보를 제공하는 연관된 품질 점수를 나타냅니다.

 

이 경우 품질은 대문자와 소문자의 조합을 포함하여 보다 더 넓습니다. 품질 점수가 높을수록("I"에 가까움) Base Calls가 정확할 가능성이 높으며 품질 점수가 낮을수록("A" 또는 "B"에 가까움) 오류 가능성이 높습니다.

 

품질의 이러한 변화는 시퀀싱 데이터를 분석하고 해석하기 위한 더 어려운 시나리오를 제시합니다. 연구자들은 각 베이스 콜의 신뢰성을 평가하기 위해 더 넓은 범위의 품질 점수 값을 고려해야 하기 때문입니다.

 

NGS 판독값의 신뢰성을 결정하려면 품질 점수, 판독 범위 및 시퀀싱 프로세스 중에 적용되는 품질 관리 조치를 비롯한 여러 요인을 고려해야 합니다. 제공된 예에서 더 높은 품질 점수는 일반적으로 더 신뢰할 수 있는 base calls를 나타냅니다.

 

제공된 예를 기반으로 "read2"는 전체 뉴클레오티드 시퀀스에서 일관되게 고품질 점수를 갖기 때문에 가장 신뢰할 수 있는 NGS 판독으로 두드러집니다. "read2"에 대한 품질 점수는 "I"로 균일하게 표시되어 각 base calls의 정확도에 대한 높은 신뢰도를 나타냅니다.

 

그러나 NGS 판독값의 신뢰성은 개별 판독값에 의해서만 결정되는 것이 아니라 전체 시퀀싱 데이터 분석 파이프라인에 의해서도 결정된다는 점에 유의해야 합니다. 최종 게놈 데이터의 정확성과 신뢰성을 향상시키기 위해 일반적으로 품질 필터링, 어댑터 트리밍 및 참조 게놈에 대한 정렬과 같은 추가 단계가 수행됩니다.

 

또한 NGS 판독값의 신뢰성을 평가할 때 시퀀싱 프로세스 중에 도입된 잠재적 오류 또는 편향을 설명하기 위해 동일한 게놈 영역을 포함하는 여러 판독값을 고려하는 경우가 많다는 점을 언급할 가치가 있습니다. 여러 판독의 합의를 분석함으로써 연구원은 기본 DNA 시퀀스의 보다 정확한 표현을 얻을 수 있습니다.

위의 표와 별개로 report로 예시를 들어보겠습니다.

 

for exsam

 

Variant Report
Patient Information:

Name: 병리맨
Age: 37
Gender: Female
Clinical Symptoms: Unexplained adverse drug reactions
Variant Information:

Gene: ABCB1
Variant: c.2677T>G (p.Ile893Met)
Variant Classification: Pathogenic
Clinical Significance: This variant is a pathogenic mutation in the ABCB1 gene. It is associated with altered drug response and can lead to unexplained adverse drug reactions.
Sequencing Results:

NGS reads spanning the region of interest were obtained for the ABCB1 gene.
Example NGS Read:
Read ID: Read_1
Nucleotide Sequence: ATGCGCTGATCGAGTCCAGTGGCTGAGCTGATCGATCGATCGATCGTGTAGCTGCTGCTG
Quality Scores: IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII

In this example, we present one of the NGS reads (Read_1) that spans the c.2677T>G variant in the ABCB1 gene. The nucleotide sequence represents the DNA bases obtained from the sequencing process, while the quality scores indicate the confidence level for each base call, with "I" representing high-quality calls.

Based on this NGS read, we observe that at position c.2677, the reference base T has been replaced by the alternate base G. This variant results in the amino acid change from Isoleucine (Ile) to Methionine (Met) at position 893 of the ABCB1 protein.

Considering the clinical significance of this variant, which is classified as pathogenic, it suggests that 병리맨 may have an increased risk of experiencing adverse drug reactions due to altered drug response mediated by the ABCB1 gene.

Further interpretation and clinical implications of this variant should be evaluated in conjunction with additional patient information, including medical history, drug exposure, and relevant guidelines or literature in the field of pharmacogenomics.

Please note that this is an example reading, and actual NGS reads and quality scores may vary depending on the specific sequencing technology, platform, and sample being analyzed.

 

보다시피 

 

ABCB1 유전자의 c.2677T>G(Ile893Met)와 같은 특정 유전 변이에 대한 NGS 읽기를 얻으려면 일반적으로 관련 게놈 영역에서 표적 시퀀싱 또는 전체 엑솜 시퀀싱(WES)을 수행합니다.

 

DNA 추출

환자로부터 혈액이나 조직과 같은 생물학적 시료를 채취하고 표준 프로토콜을 사용하여 게놈 DNA를 추출합니다.

 

라이브러리 준비

관심 영역(이 경우 ABCB1 유전자 또는 주변 게놈 영역)을 구체적으로 대상으로 하는 DNA 라이브러리를 준비합니다. 이는 표적 농축 기술을 통해 또는 유전자 특이적 프로브 또는 혼성화를 사용하여 원하는 게놈 단편을 캡처하여 달성할 수 있습니다.

 

시퀀싱

Illumina, Ion Torrent 또는 PacBio와 같은 적합한 플랫폼을 사용하여 준비된 라이브러리에서 차세대 시퀀싱을 수행합니다. 시퀀싱 플랫폼은 일반적으로 길이가 약 150-300 염기쌍인 수백만 개의 짧은 DNA 판독을 생성합니다.

 

데이터 분석

생물 정보학 도구 및 파이프라인을 사용하여 원시 시퀀싱 데이터를 처리하고 분석합니다. 분석에는 참조 게놈에 대한 읽기 정렬, 유전적 변이를 식별하기 위한 변이 호출, 특정 변이의 기능적 영향 및 알려진 유전 변이와의 연관성을 결정하기 위한 주석을 포함하는 여러 단계가 포함됩니다.

 

변형 확인

변형(이 경우 c.2677T>G)이 식별되면 다양한 방법으로 변형을 검증하는 것이 중요합니다. 여기에는 독립적인 시퀀싱 실행, 대체 시퀀싱 기술 또는 Sanger 시퀀싱과 같은 표적 검증 기술의 추가 시퀀싱 읽기가 포함될 수 있습니다.

 

생성된 판독값은 관련 품질 점수 및 정렬 정보와 함께 추가로 분석 및 해석되어 환자의 게놈 서열 내 변이체의 존재 및 특성을 이해할 수 있습니다.

 

궁극적으로 NGS 판독값의 신뢰성은 다양한 요인에 따라 달라지며 전체 시퀀싱 실험과 데이터 처리 중에 사용되는 특정 품질 관리 조치의 맥락 내에서 평가되어야 합니다.


NGS는 전체 게놈 시퀀싱, 표적 유전자 시퀀싱, RNA 시퀀싱(RNA-Seq), 후생유전학적 프로파일링, 메타게놈학 등을 포함하여 광범위한 응용 분야를 가지고 있습니다. 그것은 유전 질환, 암 유전체학, 진화 생물학 및 맞춤형 의학에 대한 우리의 이해를 발전시키는 데 중요한 역할을 했습니다.

 

NGS는 게놈 연구를 크게 가속화하여 과학자들이 대규모 유전 데이터를 생성하고 전례 없는 세부 사항에서 생물학적 질문을 탐구할 수 있도록 합니다. 그것은 게놈에 대한 우리의 지식에 크게 기여했으며 다양한 과학 분야에서 새로운 발견과 응용을 지속적으로 주도하고 있습니다.

 

 

 

 
반응형

댓글