Sequentie alignments

Sequentie alignments is het vergelijken van twee of meer DNA, RNA of eiwit sequenties

Dit doen we regio’s te identificeren die vergelijkbaar zijn als gevolg van een functionele, structurele of evolutionaire relatie

We moeten dan sequenties zo indelen zodat vergelijkbare gedeeltes van de sequentie met vergelijkbare eigenschappen worden uitgelijnd.

Er zijn twee soorten alignment:

  • Pairwise alignments
    • Gebruikt als er 2 sequenties zijn
  • Multiple Sequence alignment (MSA)
    • Gebruikt als er meer dan 2 sequenties zijn

Pairwise alignment

  • Snel en simpel
  • Niet altijd betrouwbaar
  • Score wordt berekent aan de hand van identities en similarities van de aminozuren
    • Identity:
      • Exacte matches
    • Similarity (positives):
      • Vergelijkbare match
      • Bijv. R en K zijn allebei positief geladen
      • Bijv. D en E zijn allebei negatief geladen

Multiple Sequence alignment

  • Zwaar voor de computer
    • Iedere sequentie met iedere andere sequentie alignen
    • Scores kunnen gebruikt worden voor een fylogenetische boom
  • Betrouwbaarder
    • Meer informatie beschikbaar

Gaps en mismatches

  • Gaps (-) zijn belangrijk voor het beter alignen
  • Ze simuleren indel events
  • Een mismatch simuleert en substitutie

Graag hebben we een alignment die evolutionair logisch is.

Alignment score

De som van alle matches van een alignment, met gap penalties daarvan afgehaald.

  • Match score: +1
  • Mismatch score: 0
  • Opening gap penalty: -2
  • Lengte penalty: -1 score?

Scoring system

Bij het vergelijken van eiwitsequenties

  • sommige aminozuren lijken meer op elkaar dan andere.

Waarom alignen?

  • Homologen (overeenkomsten) vinden:
    • Evolutionaire events identificeren
      • Duplicaties
      • Soortvorming
  • Extrapoleren van kennis over de ene sequentie naar een andere sequentie.
  • Structuur en functie van een eiwit ontrafelen
  • Identificatie van geconserveerde sequentie
  • Fylogenie
  • Identificeren van Homologen, Orthologen en Paralogen
    • Orthologen
      • Verschillende organismes met dezelfde genen

Homologen, Orthologen en Paralogen

Homologen

  • Hebben een gemeenschappelijk vooroudersequentie
  • Een sequentie is waarschijnlijk homoloog als:
    • 2 eiwitsequenties (>100 a.z.) >25% identiteit
    • 2 DNA sequenties (>100 nt) >70% indentiteit
    • MAAR bij een lagere identiteit kan er nog steeds sprake zijn van homologie.

Orthologen en Paralogen

BLAST

  • BLAST
    • Onderzoeker kan een query sequentie vergelijken met een database van sequenties, en daarmee vergelijkbare sequenties identificeren.
  • Identificeren van paralogen en orthologen