본문 바로가기
진단검사의학과/Molecular genetics

Next-Generation Sequencing NGS

by 병리맨 2023. 6. 22.
반응형

About NGS
NGS stands for Next-Generation Sequencing, which means next-generation sequencing technology. This technology is one of the DNA analysis methods that enables high-speed sequencing to generate large-scale sequencing data. Using this, it is used in various fields such as genetic analysis, mutation detection, waste management, and medical diagnosis.

 

There are several commercially available NGS platforms, each with its own sequencing chemistry and workflow. Some popular platforms include Illumina (e.g., HiSeq, NovaSeq), Ion Torrent (Thermo Fisher Scientific), Pacific Biosciences (PacBio), and Oxford Nanopore Technologies. These platforms have different read lengths, throughput, error rates, and costs, so you can choose the platform that best suits your specific research needs.

 



NGS Course
NGS data analysis consists of four main steps. First, the raw data QC course. Sequencing data generated by NGS devices generally goes through a quality control process. This step evaluates the quality of the sequence and checks for redundancy, mother line, etc. if necessary. Second, data preprocessing. This step involves editing and cutting, filtering, and sequencing. Third, the data analysis process. In this step, various analysis methodologies are used to conduct analysis such as RNA-seq, ChIP-seq, DNA Methylation, and Variable Calling. Fourth, the process of reporting results. This step visualizes the analysis results and creates an analysis report. NGS analysis requires scientific knowledge and a high level of data processing skills, so it is common to get expert help.

 

Sequencing

NGS can simultaneously sequence millions to billions of DNA fragments, enabling high throughput analysis. This large-scale parallel sequencing approach distinguishes NGS from traditional Sanger sequencing, which sequences only one DNA fragment at a time.

 

DNA Fragmentation

In NGS, the DNA of interest is first fragmented into shorter pieces. These fragments are often approximately 100-500 base pairs in length, depending on specific sequencing platforms and applications.

 

Preparing the Library

After fragmentation, a special adapter is added to the end of the DNA fragment. These adapters contain sequences that are required for subsequent steps in the NGS workflow, such as DNA amplification, cluster generation, and sequencing.

 

Create a Cluster

Along with the attached adapter, DNA fragments are amplified and secured to solid supports (e.g., glass slides or fluid cells). As a result, a clone cluster is formed, each consisting of thousands of copies of the same DNA fragment.

 

Sequencing by synthesis

Most NGS platforms use a sequencing-based synthesis method. In this process, fluorescently labeled nucleotides are added to a fixed DNA cluster and integrated nucleotides are detected when each base is sequenced. Fluorescent signals can be captured and recorded to determine DNA sequences.

 

Lead Length and Depth

The NGS platform can generate sequencing leads of varying lengths, typically ranging from dozens to hundreds of base pairs. The number of times a particular region of DNA is sequenced is called depth or coverage. The higher the coverage, the more reliable the accuracy of the sequence data.

 


 

 

NGS Analysis Technology
There are two main categories of data processing techniques used in NGS analysis. First, data preprocessing technology. Data preprocessing is a technology that can reduce errors caused by damaged samples, noise from sequences, and heterogeneous crossings, and increase data accuracy. For example, data preprocessing techniques used in sequencing include quality control, sequencing and consistency determination, and elimination of duplicate sequencing. Second, analysis technology. Analytical techniques are extraction and data processing techniques suitable for various bioinformatic tasks, including rare mutations, gene expression levels, chromosome mapping and segmentation analysis in a given NGS data. For example, Topat, Cufflinks, EdgeR, and DEseq are some of the most commonly used analytical techniques for RNA-seq analysis. These data preprocessing and analysis techniques require scientific knowledge and high-level data processing techniques, so it is common to get expert help.

 

Single cell sequencing
NGS has facilitated the development of single-cell sequencing technologies. Traditional sequencing methods relied on bulk samples, where DNA from multiple cells was sequenced together to mask cell heterogeneity. The ability to analyze individual cells through single cell sequencing allows us to characterize complex cellular processes in intercellular mutation research, rare cell types identification, development, disease, and immunology.
 
epigenetic analysis
NGS has contributed significantly to the field of epigenetics, which studies genetic changes in gene expression that do not involve changes in DNA sequences themselves. With techniques such as ChIP-Seq (Chromatin Immunoprecipitation sequencing) and DNA methylation sequencing (e.g., bisulfite sequencing), researchers map histone variants, DNA-protein interactions, and DNA methylation patterns across the genome, providing insights on gene regulation and impact. Postoperative transformation of disease development and progression.
 


Next-Generation Sequencing 판독
Next-Generation Sequencing (NGS) reading consists of three main steps. First, create the desired DNA library. A library is a collection of stems that are used to fragment sequences and display sequences of specific genes or regions. Second, load the built library onto the NGS platform to read the sequence. In this process, various techniques are used internally to read multiple DNA sequence generations at the same time. Third, perform the required data analysis based on the read sequence information. This requires a high level of data processing skills and biological knowledge. These NGS technologies are widely used in numerous molecular biological applications such as large-scale genetic analysis, disease cause derivation, and mutation detection.


This is a simple example.
 
 ID
Nucleotide Sequence
Quality
1
CTAGCTGACTCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
IIIGHFEDCBAAAAAAAAAAAAAAAAAAAA
2
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII
3
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
BAIIHHGFFEDCCBAAAAAAAAAAAAAAA
4
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
IIIIIIIIIIIIIIIIIIIIIIIIIIABA
5
TACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACG
AAAABBBCCCCCDDDDDEEFFFFFFFFF
6
GATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATC
GGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
7
CGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGAT
IIHHGFFFFFFFFFFFFEEEEEEEDCCCC
Each row represents a different read obtained from NGS sequencing. The "ID" column represents the unique identifier for each reading, and the "Nucleotide Sequence" column represents the sequence of nucleotides (A, T, G, C) obtained in the sequencing process. The "Quality Scores" column represents the associated quality scores that provide information about the accuracy and reliability of each base call in a sequence.

 

In this case, the quality is wider, including a combination of uppercase and lowercase letters. The higher the quality score (near "I") the more likely the Base Calls are to be accurate and the lower the quality score (near "A" or "B") the more likely the error is.

 

This change in quality presents a more challenging scenario for analyzing and interpreting sequencing data. This is because researchers need to consider a wider range of quality score values to assess the reliability of each base call.

 

Determining the reliability of NGS readings requires consideration of a number of factors, including quality scores, reading ranges, and quality control measures applied during the sequencing process. In the example provided, a higher quality score usually indicates a more reliable base calls.

 

Based on the example provided, "read2" stands out as the most reliable NGS reading because it consistently has high-quality scores across the entire nucleotide sequence. The quality score for "read2" is uniformly displayed as "I", indicating a high degree of confidence in the accuracy of each base call.

 

However, it should be noted that the reliability of NGS readings is determined not only by individual readings, but also by the overall sequencing data analysis pipeline. To improve the accuracy and reliability of the final genome data, additional steps such as quality filtering, adapter trimming, and alignment to the reference genome are typically performed.

반응형

댓글