Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

测序介绍 II:接头

Posted on 2022-09-15

几周前,我写了一篇简短的测序介绍。这里还有一点,从一个小谜题开始。我正在使用加利福尼亚废水测序数据 ( Rothman et al 2021 ),我发现一个读数与 HIV 部分匹配:

  
>SRR14530740.1578405 1578405/2  
AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCCGTCTGTTGTGTGACTCT  
GGTAACTAGAGATCCCTCAGACCCTTTTAGTC CTGTCTCTTATACACATCT  
GACGCTGCCGACGACCTTCGTGATGTGTAGATCTCGGGGGGCGGCGGGG  

读取开头突出显示的 83 个碱基与 HIV 基因组开头附近的该部分完全匹配:

  
>AF033819.3 HIV-1,全基因组  
GGTCTCTCTGGTTAGACCAGATCTGAGCCTGGGAGCTCTCTGGCTAACTA  
GGGAACCCACTGCTTAAGCCTCAATAA AGCTTGCCTTGAGTGCTTCAAGT  
AGTGTGTGCCCGTCTGTTGTGTGACTCTGGTAACTAGAGATCCCTCAGAC  
CCTTTTAGTC AGTGTGGAAAATCTCTAGCAGTGGCGCCCGAACAGGGAC  
...  

这个数据集是用双端读取测序的,这意味着我们可以获得更多关于这个特定基因片段的信息。这是“反向”读取,所以让我们看一下相应的正向读取:

  
>SRR14530740.1578405 1578405/1  
GACTAAAAGGGTCTGAGGGATCTCTAGTTACCAGAGTCACACAACAGACGG  
GCACACACTACTTGAAGCACTCAAGGCAAGCTCTGTCTCTTATACACATCT  
CCGAGCCCACGAGACCTTGCCATTAATCTCGTATGCCGTCTTCTGCTTG  

当使用双末端读取时,它们以相反的方向相互排序:

  
   正读 -->  
5' --------------------------------------------- 3'  
   |||||||||||||||||||||||||||||||||||||||||||  
3' --------------------------------------------- 5'  
                                <-- 反向读取  

因为他们在不同的方向阅读,你需要反转其中一个阅读,因为他们正在阅读互补链,你需要获取遗传互补。这是正向读取的反向补码,以匹配我们已经看到的反向读取:

  
>SRR14530740.1578405 1578405/1,反向补码  
CAAGCAGAAGACGGCATACGAGATTAATGGCAAGGTCTCGTGGGCTCGGAG  
ATGTGTATAAGAGACAG AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCC  
GTCTGTTGTGTGACTCTGGTAACTAGAGATCCCTCAGACCCTTTTAGTC  

最常见的是,您的配对末端读取在一起,例如:

  
[阅读 1] [你没有排序的间隙] [阅读 2]  

然而,在这种情况下,它们重叠,允许我们组装更大的序列。有时您可能会遇到读取错误,这两者并不完全匹配,但我们很幸运,并且没有分歧:

  
CAAGCAGAAGACGGCATACGAGATTAATGGCAAGGTCTCGTGGGCTCGGAG  
ATGTGTATAAGAGACAG AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCC  
GTCTGTTGTGTGACTCTGGTAACTAGAGATCCCTCAGACCCTTTTAGTC CT  
GTCTCTTATACACATCTGACGCTGCCGACGACCTTCGTGATGTGTAGATCT  
CGGGGGCGGCGGGG  

现在有一个难题:两者的重叠部分恰好是与 HIV 匹配的序列。这不是您希望偶然看到的东西,对吧?两个序列之间有多少重叠(或距离)应该是不可预测的。那么,为什么会这样呢?

在测序过程中,您的输入 DNA 片段会在其末端粘上更多的 DNA(“适配器”),以允许测序仪对其进行操作。在目标序列的开头(5′ 端),这很有效:测序使用适配器来确定从哪里开始读取,然后几乎总是从原始片段的第一个碱基开始。但是,如果您的初始片段非常短,它将超过原始序列的末尾并进入适配器。 Illumina 有一些文档,其中包含解释该过程的数字。

以下是原始读数再次突出显示 HIV 匹配之后的部分:

  
>SRR14530740.1578405 1578405/2  
AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCCGTCTGTTGTGTGACTCT  
GGTAACTAGAGATCCCTCAGACCCTTTTAGTC CTGTCTCTTATACACATCT  
GACGCTGCCGACGACCTTCGTGATGTGTAGATCTCGGGGGGCGGCGGGG  
>SRR14530740.1578405 1578405/1  
GACTAAAAGGGTCTGAGGGATCTCTAGTTACCAGAGTCACACAACAGACGG  
GCACACACTACTTGAAGCACTCAAGGCAAGCT CTGTCTCTTATACACATCT  
CCGAGCCCACGAGACCTTGCCATTAATCTCGTATGCCGTCTTCTGCTTG  

对于本文中使用的套件,该序列是适配器的开始,从该位开始的任何内容都不是我们输入片段的一部分。

移除适配器后,我们只剩下:

  
>SRR14530740.1578405 1578405/2  
AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCCGTCTGTTGTGTGACTCT  
GGTAACTAGAGATCCCTCAGACCCTTTTAGTC  
>SRR14530740.1578405 1578405/1  
GACTAAAAGGGTCTGAGGGATCTCTAGTTACCAGAGTCACACAACAGACGG  
GCACACACTACTTGAAGCACTCAAGGCAAGCT  

现在,这与 HIV 完全匹配,最后没有任何垃圾。大多数质量控制流程都包含一个删除接头的步骤,就像它们删除我上次描述的 poly-G 序列一样。

原文: https://www.jefftk.com/p/sequencing-intro-ii-adapters

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme