Zusammenfassung

Viele Bereiche der Lebenswissenschaften, darunter auch Phylogenetik, Phylogenomik und Ökolo-gie, haben sich zu Daten-intensiven Disziplinen entwickelt. Gründe sind u.a. zunehmend günstigere Sequenzierungsverfahren mit immer höherem Durchsatz, die zunehmende Digitalisierung von gro-ßen biologischen Sammlungen und umfangreiche Datenerhebungen durch wissenschaftlichen Laien (citizen science). Die stetige Entwicklung neuer Analysemethoden, die durch steigende Re-chenleistung begünstigt wird, trägt zusätzlich zur Menge von wissenschaftlichen Daten bei, die für eine Wiederverwendung interessant sind. Dies eröffnet neue Möglichkeiten für Studien auf der Basis von sehr großen Datenmengen (big data), bringt aber ebenfalls neue Herausforderungen an die Entwicklung von notwendiger Infrastruktur und Werkzeugen mit sich. Um das Potential der großen vorhandenen Datenmenge optimal nutzen zu können, braucht es digitale Infrastruktur um wissenschaftliche Daten zu teilen und langfristig verfügbar zu halten, aber auch Bestimmungen von Verlagen und Drittmittelgebern, die zu deren öffentlicher Zugänglichmachung motivieren. Daten-banken wie Dryad und entsprechende Empfehlungen von einer zunehmenden Zahl wissenschaftli-cher Zeitschriften und Drittmittelgeben sind erste Schritte in diese Richtung, aber weitere sind notwendig. Genauso wichtig wie die Verfügbarkeit von wissenschaftlichen Daten ist auch ihre Wie-derverwendbarkeit. Dies umfasst v.a. die Verwendung von offenen und eindeutig definierten Formaten und die semantische Annotation mit unterschiedlichen Arten von Metadaten um diese eindeutig zu beschreiben und relevante Informationen und Ressourcen zu verknüpfen. Solche Annotationen sollten idealer Weise automatisiert interpretierbar sein, um eine zuverlässige Daten-sammlung durch automatisierte Systeme für Arbeiten mit einer breiten Datengrundlage zu ermög-lichen. Darüber hinaus kann die Reproduzierbarkeit von Studien erhöht werden, indem Ergebnisse unmittelbar mit Metadaten verknüpft werden, die Informationen über die verwendeten Metho-den und Arbeitsabläufe zur Datengenerierung enthalten. Diese Annotation kann am besten von den Wissenschaftlern, die diese Daten produzieren, durchgeführt werden. Allerdings sind diese oft nicht vertraut mit notwendigen Annotationstechnologien, wie dem Resource Description Frame-work (RDF), leistungsfähigen Dateiformaten wie NeXML oder biologischen Ontologien. Deshalb ist wissenschaftliche Software die einen solchen Prozess vereinfacht und dabei trotzdem sicherstellt, dass Annotationen, die eine optimale Wiederverwendbarkeit ermöglichen, eine dringende Not-wendigkeit im Zeitalter von Big Data und dem semantischen Web.

Um diese Anforderungen in Bezug auf phylogenetische Datentypen zu erfüllen, werden in dieser Arbeit zwei Ansätze verfolgt, die sowohl bioinformatischen Softwareentwicklern, als auch Wissen-schaftlern aus allen Bereichen, die z.B. mit Multisequenzalignierungen oder phylogenetischen Bäumen arbeiten, zugutekommen. In einem ersten Schritt wurden Programmbibliotheken entwi-ckelt, die notwendige wiederverwendbare Komponenten bereitstellen. Eine davon ist JPhyloIO und erlaubt das Lesen und Schreiben unterschiedlicher phylogenetischer Dateiformate über eine einheitliche Speicher-effiziente Schnittstelle. Es wurde dabei besonderer Wert auf die vollständige Unterstützung der Metadatenmodelle aller Formate gelegt. LibrAlign ist eine weitere Bibliothek, die flexible und leicht erweiterbare Komponenten für grafische Oberflächen zur Verfügung stellt, die das Anzeigen und Bearbeiten biologischer Sequenzen und Multisequenzalignierungen in direk-ter Kombination mit entsprechenden Metadaten erlauben. Diese Bibliotheken bilden in einem zweiten Schritt die Basis für neue Anwendungen, die die beschriebenen Bedürfnisse von Forschern erfüllen. Gleichzeitig steht durch sie die neue Funktionalität auch anderen Entwicklern zur Verfü-gung und erlaubt diesen, Software für viele weitere biologische Anwendungen zu schreiben oder zu erweitern, die ebenfalls Datenwiederverwendung durch Annotation mit Metadaten erleichtert.

Der Taxonomic Editor der EDIT Plattform für Cybertaxonomie modelliert taxonomische Arbeitsab-läufe, wobei alle Datenelemente darin dauerhaft mit dem Beleg verknüpft werden, aus dem sie ursprünglich erzeugt wurden. Dies ist ein entscheidender Vorteil gegenüber der klassischen Heran-gehensweise, bei der Informationen lediglich einem Taxon zugeordnet werden. Denn nur so blei-ben Datenelemente weiterhin verwendbar und interpretierbar, wenn sich Zuordnungen zwischen Belegen und Taxa durch taxonomische Revisionen später ändern. Der Taxonomic Editor wurde in dieser Arbeit um Komponenten zur Verarbeitung molekularer Sequenzdaten, auf der Basis von LibrAlign und JPhyloIO, erweitert. Die beiden wichtigsten Datentypen der Phylogenetik werden von PhyDE 2 und TreeGraph 2 modelliert, bei denen es sich jeweils um einen Editor für Multise-quenzalignierungen (MSAs), bzw. phylogenetische Bäume handelt, die beide in dieser Arbeit ent-wickelt wurden. PhyDE 2 ist eine Neuimplementierung des bislang verwendeten PhyDE auf der Basis von LibrAlign und JPhyloIO. Obwohl erst eine basale Version von PhyDE 2 zur Verfügung steht, die noch nicht den vollen Funktionsumfang ihres Vorgängers erreicht hat, ist die neue Im-plementierung deutlich besser wartbar und erweiterbar. Sie erleichtert die zukünftige Weiterent-wicklung von PhyDE hin zu einer umfangreichen Metadatenmodellierung und erlaubt die neuen Bibliotheken optimal zu nutzen. TreeGraph 2 bietet umfangreiche und nutzerfreundliche Funktio-nen zur Bearbeitung und Formatierung von phylogenetischen Bäumen und modelliert beliebige Arten von Metadaten, die an Äste oder Knoten eines Baums gebunden sein können. Es ermöglicht weiterhin die Visualisierung solcher Daten auf vielfältige Weise und verwendet die Funktionen von JPhyloIO zum Lesen und Schreiben phylogenetischer Bäume zusammen mit ihren Metadaten.

Neben der Erhöhung der Wiederverwendbarkeit von wissenschaftlichen Daten, stellt die Entwick-lung von Software zum Vergleich und zur Integration von Ergebnissen aus alternativen Analyseme-thoden ein weiteres wesentliches Ziel dieser Arbeit dar. Dieses ist ebenfalls eng mit der Modellie-rung von Metadaten verbunden und trägt zur Erhöhung der Reproduzierbarkeit wissenschaftlicher Studien bei. Es existieren zahlreiche verschiedene Methoden zum Generieren einer Multisequen-zalignierung oder zur Rekonstruktion eines phylogenetischen Baums und es ist meist nicht direkt zu entscheiden, welche Methode die besten Ergebnisse für welchen Anwendungsfall liefert. Folglich müssen Wissenschaftler oft unterschiedliche Ergebnisse detailliert vergleichen und auf Übereinst-immungen und Konflikte untersuchen und möglicherweise auch die Ergebnisse mehrerer Verfah-ren kombiniert darstellen. Dazu wurde u.a. AlignmentComparator im Rahmen dieser Arbeit unter Verwendung der Komponenten von LibrAlign entwickelt. Dieser implementiert unterschiedliche Algorithmen, die einen detaillierten visuellen Vergleich von alternativen Multisequenzalignierun-gen ermöglichen, wobei unterschiedlich und identisch alignierte Bereiche schnell identifiziert und annotiert werden können. AlignmentComparator kann ebenfalls verwendet werden, um schritt-weise automatische oder manuelle Modifikationen einer Alignierung über einen Arbeitsablauf nachzuverfolgen. TreeGraph 2 komplettiert die entwickelte Funktionalität durch eine interaktive Vergleichsfunktion für phylogenetische Bäume und erlaubt außerdem Stützwerte aus unterschied-lichen Verfahren an einem Baum darzustellen und mögliche topologische Konflikte hervorzuheben.

Gemeinsam erlauben die entwickelten Anwendungen die Visualisierung, Bearbeitung und den Vergleich der wichtigsten Datentypen der Phylogenetik und verwandter Disziplinen und bieten das Potential für eine vollständige Modellierung notwendiger Metadaten über komplette phylogeneti-sche Arbeitsabläufe hinweg, die einfach wiederverwendbare Daten erzeugen und leicht reprodu-zierbar sind. Die Verfügbarmachung weiter Teile der entwickelten Funktionalität in separaten Bibli-otheken wird darüber hinaus die Entwicklung und Erweiterung weitere Software fördern, die Funk-tionen zur erleichterten Datenwiederverwendung und erhöhter Reproduzierbarkeit bietet. Alle entwickelten Produkte sind unter http://bioinfweb.info/Software frei verfügbar.

Volltext herunterladen