Schlagwort: SNP

  • Anonymität in Zeiten kommerzieller DNA-Analysen

    Anonymität in Zeiten kommerzieller DNA-Analysen

    Ich kann mit hoher Wahrscheinlichkeit erraten, wie dein Ur-Ur-Ur Großvater – väterlicherseits – mit Nachnamen hieß: Genauso wie du. Was trivial klingt hat kulturelle Hintergründe. Traditionell nehmen Ehepaare bei der Hochzeit den Nachnamen des Bräutigams an, und die Kinder heißen dann ebenso. Nicht nur der Nachname wird so über Generationen weitergegeben, auch das Y-Chromosom männlicher Nachkommen stammt immer vom Vater, und der hat es von dessen Vater, und so weiter.
    Genealogie heißt die Erforschung der Abstammungsverhältnisse. Es ist eine Hilfswissenschaft, die wohl vor allem von Großvätern mit viel Zeit ausgeübt wird, und in den USA überaus populär ist. Seit ein paar Jahren wird die Genealogie durch moderne DNA Sequenziermethoden unterstützt. In großen, öffentlichen Datenbanken wie Ysearch und SMGF werden Informationen zu kurzen, sich wiederholenden aber individuell sehr unterschiedlichen DNA Sequenzen des Y-Chromosoms gespeichert, sowie die dazugehörigen Nachnamen. Das hilft den Garagenahnenforschern, etwas über die eigenen Wurzeln heraus zu finden. Man lässt kommerzielle Unternehmen die eigenen sogenannten Short Tandem Repeat (STR) Regionen sequenzieren, und vergleicht die Ergebnisse über eine einfach Eingabemaske dann mit den Einträgen in den Sequenzdatenbanken.

    Den Nachnamen aus Sequenzdaten bestimmen

    DNA Sequenziermethoden werden nicht nur zur privaten Ahnenforschung genutzt. Es gibt große, wissenschaftliche Studien mit dutzenden bis tausenden Teilnehmern, bei denen die DNA der Probanden möglichst komplett sequnenziert wird, beispielsweise um einen Eindruck von der generellen Variabilität menschlicher DNA zu bekommen, oder um bestimmte phänotypische Eigenschaften Unterschieden in der DNA zu zu ordnen. Die Teilnehmer dieser Studien werden in den allermeisten Fällen anonymisiert, so dass durch die Analyse der DNA Sequenzen kein Rückschluss auf die Identität des Teilnehmers möglich ist – oder möglich sein sollte.
    Letzte Woche wurde ein Paper in Science publiziert (Gymrek et al.), in dem berechnet wurde, wie hoch das Risiko ist, den Namen eines Probanden zu identifizieren – nur durch die Nutzung öffentlich zugänglicher Datenbanken und durch Internetsuchen. Die Autoren zeigen an einem Testset, dass ihr Algorithmus optimal eingestellt 12% der Namen korrekt identifiziert (5% falsch positiv, 83% unbekannt). In Kombination mit relativ unspezifischen Informationen wie Geburtsjahr und bewohntem US-Bundesstaat war es den Autoren möglich, die Zahl der möglichen Spender einer DNA Probe auf durchschnittlich ein Dutzend Personen einzuschränken.
    Die Ergebnisse der Gruppe aus israelischen und US-amerikanischen Forschern sind nicht erschreckend, sie zeigen aber, das die Anonymität von Teilnehmern an großen DNA-Sequenzierstudien unter Umständen nicht gewahrt bleibt, vor allem wenn zusätzliche persönliche Informationen verfügbar sind, auch wenn diese relativ allgemein sind, wie Alter und Nationalität.

    Weniger ist mehr: Datenschutz und kommerzielle DNA-Analysen

    Es gibt noch eine dritte Gruppe Menschen, die Teile ihrer DNA sequenzieren lassen. Während das Ziel der Ahnenforscher ist, über STRs die eigene Abstammung zu rekonstruieren, sind ein Großteil der privaten Kunden von Sequenzierunternehmen auf etwas ganz anderes aus: Sie interessieren sich für die Wahrscheinlichkeit in Zukunft an bestimmten Krankheiten zu leiden. Dazu werden sogenannte SNPs analysiert, also ebenfalls kurze DNA Sequenzen, die mit dem Auftreten von Krankheiten assoziiert sind. Menschen, die sich durch die Sequenzierung von SNPs über Krankheitsrisiken informieren haben oft gute Gründe, ihre Anonymität zu wahren.
    Wie hoch ist also das Risiko, dass durch die Analyse dieser SNP-Daten Rückschlüsse auf die Person möglich sind? Dazu habe ich Bastian Greshake befragt, Gründer von openSNP, einer Plattform auf der die Ergebnisse solcher SNP-Analysen publiziert, analysiert und diskutiert werben können.
    WeiterGen: Bastian, ist die Anonymität der Benutzern von openSNP nach der Publikation des Gymrek-Papers noch gewährleistet?
    Bastian Greshake: Ich vermute das es aktuell nicht so einfach wäre die Benutzer von openSNP mit Nachnamen anreden zu können (also wenn sie ihn nicht angegeben haben). Komplett ausschliessen kann man das natürlich nicht. In dem Paper dort nutzen sie die Haplotypen von bis zu 60 Y-chromosomalen Short Tandem Repeats, darin steckt, meiner Ansicht nach, um einiges mehr an Ancestry-Information, als man über die SNPs die 23andMe auf dem Y-Chromosom testet bekommt (openSNP nutzt hauptsächlich SNP-Daten von 23andMe-Analysen, WG).
    WG: Was wäre nötig, um die Anonymität der openSNP Benutzer zu gefährden?
    BG: Falls entsprechende Referenzdaten zur Verfügung stünden, könnte man theoretisch von den SNPs aus die Y-STRs imputen, also aus den SNPs die Y-STRs vorhersagen und dann die in der Publikation benutzten Methoden verwenden um die Identität zu ermitteln. Alternativ könnte man direkt Namensdatenbanken verwenden, die SNP-Daten anstelle von STRs verwenden. Diese sind aber derzeit noch nicht weit verbreitet, oder zumindest nicht öffentlich.
    WG: Das Risiko, dass aktuell aus SNP-Daten Rückschlüsse auf Einzelpersonen gezogen werden können ist also sehr gering Was können openSNP Kunden dennoch selbst tun, um ihre Anonymität zu wahren?
    BG: Ganz generell gilt: Je weniger Metadaten über die Person mit den SNP-Daten verknüpft sind desto geringer die Wahrscheinlichkeit einer Zuordnung. Um die eigene Anonymität zu wahren, sollte man also beispielsweise darauf verzichten sein Alter und seinen Wohnort anzugeben. Angaben dazu sind auf openSNP freiwillig.
    Weitere Artikel im Blog zum Thema:

    Titelbild Rosie Cotton (CC BY-NC-SA 2.0).

    ResearchBlogging.orgGymrek, M., McGuire, A., Golan, D., Halperin, E., & Erlich, Y. (2013). Identifying Personal Genomes by Surname Inference Science, 339 (6117), 321-324 DOI: 10.1126/science.1229566

  • Es wird immer billiger: Kommerzielle DNA Sequenzierung zur Vorhersage von Krankheiten

    Es wird immer billiger: Kommerzielle DNA Sequenzierung zur Vorhersage von Krankheiten

    Vor zwei Wochen nahm ich an einer Diskussionsrunde zu personalisierten genetischen Tests Teil. Firmen wie 23andMe bieten für ein paar Hundert Dollar an, die eigene DNA zu analysieren und dann Rückschlüsse auf Krankheitsrisiken, aber auch auf die persönliche Abstammung zu ziehen. Ich habe hier im Blog von der Diskussionsrunde (live) berichtet.

    Im Zuge meiner Vorbereitungen habe ich aktuelle Angebote für diese personalisierten genetischen Tests recherchiert. 23andMe testet derzeit für 300 Dollar. Das sind 100 Dollar weniger als vor knapp drei Jahren. Günstiger ist natürlich gut, und auch die Zahl der ausgewerteten Merkmale ist von rund 120 vor drei Jahren auf derzeit 243 gestiegen. Insgesamt werden dafür von 23andMe Daten von rund einer Million SNPa analysiert. Die Technik, die 23andMe verwendet nennt sich Genotypisierung. Dabei werden Mutationen in kurzen DNA-Abschnitten (single nucleotide polymorphisms, SNPs), Wahrscheinlichkeiten für bestimmte Krankheiten zugeordnet. Die Wahrscheinlichkeiten wurden (und werden weiter) in sogenannten genomweiten Assoziationstudien (GWAS) bestimmt.

    Die Genotypisierung ist nicht die einzige Möglichkeit, Daten zu Krankheitswahrscheinlichkeiten durch die Analyse der DNA zu gewinnen. Die Alternative ist die DNA Sequenzierung. Und hier sind die Kosten in den letzten Jahren dramatisch gefallen. Die Grafik des National Human Genome Research Institutes zeigt detailliert, wie sich die Kosten für die DNA Sequenzierung seit 2001 entwickelt haben. Der Preisverfall übeflügelt das Moorsche Gesetz weit und besonders auffällig ist der Preisknick nach 2007 (siehe Abbildung oben). Dieser hängt mit einer technischen Neuerung zusammen: Das sogenannte Next Generation Sequencing hat vor ein paar Jahren das traditionelle Sanger-Sequenzing in den großen Sequenzierzentren abgelöst. Das Next Generation Sequencing unterschiedet sich vor allem durch eine massive Parallelisierung der Sequenziervorgänge, hier ein Übersichtsartikel über Sequenziertechniken.

    Weltweite Verteilung der Next Generation Sequenziermaschinen, Stand 09/2012. Quelle http://omicsmaps.com

    Interessant ist auch die weltweite Verteilung der Next-Generation Sequenziermaschinen, sie bildet annährend die Verteilung der Wissenschaftsausgaben ab. Aktuell sind 2035 dieser Sequenziergeräte im Einsatz. 922 davon stehen in Nordamerika, 604 in Europa und 377 in Asien. Das weltweit größte Sequenzierzentrum ist das BGI in China mit 166 Maschinen. In Deutschland stehen 142. Trotz dieser Explosion an Sequenzierpower kostet aktuell die Sequenzierung eines kompletten menschlichen Genoms noch deutlich zu viel, um kommerziell mit SNP-Genotyping konkurrieren zu können. Das sogenannte Exomesequening, bei nicht das ganze Genom sequenziert wird, sondern nur die Teile, die tatsächlich für Proteine kodieren, ist jedoch ein günstigerer Zwischenschritt, der mittelfristig die Genotypisierung wenn nicht ganz ablösen, doch zumindest ergänzen wird. 23andMe muss derzeit dennoch keine Angst vor Konkurrenz haben. Das Unternehmen bietet (für bestehende Kunden) die Sequenzierung des Exoms mit 80-facher Coverage bereits für 999 Dollar an.

    Trotz aller Preisstürze: Deutlich günstiger und häufig zuverlässiger als genetische Tests zur Vorhersage von Krankheiten sind Blutdruck messen, ein Blick auf den Bauchumfang und auf persönliche Laster.

    Quelle Bild oben: Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Large-Scale Genome Sequencing Program www.genome.gov/sequencingcosts.

  • 1000 Genome sequenziert und immer noch nichts passiert

    i-c1a78a36b9339b2ba04021d01b2e5e8a-cover_nature-thumb-150x192.jpg

    Acht Millionen neu entdeckte Unterschiede bei der Sequenzierung menschlicher Genome. 60 neue Mutationen von einer Generation zur nächsten. Drei unterschiedliche Sequenzierstrategien. Das 1000-Genomes-Konsortium hat eine Pilotstudie in Nature publiziert. Hier ein Überblick über die Ergebnisse und deren Bedeutung.
    (mehr …)

  • Die Risiken des Wissens – Wie sind meine DNA-Daten geschützt?

    i-2b97511f06e3eafb53623ae42411e4e2-chromosome2-thumb-550x224.jpg

    Google weiss was Du suchst, Facebook kennt Deine Freunde, Amazon weiss was Du liest, last.fm kennt Deinen Musikgeschmack, Twitter weiss was Du gerade machst, Dein Blog weiss, wie Du denkst, 23andMe, Navigenics oder deCODEme kennen die Sequenzen kurzer, definierter DNA-Stücke Deines Genoms.
    (mehr …)

  • Krankheiten vorhersagen: 23andMe, deCODEme und Navigenics

    i-0889b5d6f40cf07eae7d3cdd826c72fc-chromosome1-thumb-550x224.jpg

    Drei US-Unternehmen untersuchen eingeschickte DNA-Proben systematisch auf zahlreiche Punktmutationen, sogenannte SNPs. Im ersten Blopost zur personalisierten Medizin werden 23andMe, Navigenics und deCODEme vorgestellt die Chancen der Technik erklärt.
    (mehr …)