22 Feb 2023

Die Verwandlung der Distanzen der Distanzen

Das Gehirn ist komplex. Die Aktivitäten seiner Neuronen noch komplexer. Wie können Forschende die daraus generierten, hoch-dimensionalen Daten vereinfachen und visualisieren? Wissenschaftler des Ernst Strüngmann Institute (ESI) for Neuroscience hätten da einen Verbesserungsvorschlag. Was diesen ausmacht und warum davon nicht nur die Neurowissenschaften profitieren, sondern alle, die mit Big Data arbeiten, erläutern sie in ihrem kürzlich in der Fachzeitschrift PLoS Computational Biology veröffentlichten Artikel.


Wir Menschen können Dinge in maximal vier Dimensionen wahrnehmen: Länge, Höhe, Breite, Zeit. Wissenschaftliche Daten sind jedoch oft viel höher dimensioniert. Die Milliarden von Neuronen im Gehirn zum Beispiel. Zu jedem Zeitpunkt befinden sich diese in einem einzigartigen Zustand, der sich dadurch auszeichnet, was ein Lebewesen in diesem Moment sieht und denkt. Ein solches Aktivitätsmuster kann man sich als einen hoch-, wenn nicht sogar milliardendimensionalen Raum vorstellen. Sofern man sich das überhaupt noch vorstellen kann … Und wie lässt sich damit überhaupt arbeiten? Wie können wir Daten, die sich in einem solchen Raum befinden, visualisieren?

Technik wird in vielen Disziplinene verwendet

Zu diesem Zweck verwenden Neurowissenschaftler Algorithmen des maschinellen Lernens. Diese übertragen die Daten aus dem hochdimensionalen Raum, der nicht direkt visualisiert werden kann, in die 2- oder 3-Dimensionalität. Das lässt sich nicht nur visualisieren, damit lässt es sich sogar arbeiten. Wichtig während dieser Übertragung ist es, dafür zu sorgen, dass die Abstände zwischen zwei beliebigen Datenpunkten im niedrigdimensionalen Raum den Daten im höherdimensionalen Raum so weit wie möglich ähneln. Der Fachausdruck für diesen Übertragungsprozess lautet „niedrigdimensionale Einbettung“. Diese Technik wird nicht nur in den Neurowissenschaften häufig eingesetzt, um das Verhalten von Neuronengruppen zu visualisieren, sondern auch in der Bioinformatik, um Daten von verschiedene Arten von Zellen abzubilden. Außerdem lassen sich damit auch hochdimensionale Daten in einige wenige Hauptfaktoren übersetzen, die die meiste Variabilität zwischen Datenpunkten erfassen und für die weitere Datenanalyse verwendet werden können. Wichtig ist, dass sie oft verwendet wird, um die Behauptung zu untermauern, dass es verlässliche Cluster in den Datenpunkten gibt, indem man zeigt, dass es verlässliche Cluster gibt. Getreu dem Motto „Sehen ist Glauben“.

Rauschpunkte verzerren das Ergebnis

ESI-Doktorand Jinke Liu und sein Forschungsgruppenleiter Martin Vinck haben nun einen Weg gefunden, die Techniken der niedrigdimensionalen Einbettung zu verbessern. In ihrem kürzlich veröffentlichten Beitrag in der Fachzeitschrift PLoS Computational Biology, zeigen sie zunächst, dass in hochdimensionalen Räumen ein besonderes Problem auftritt: Man stelle sich vor, es gäbe einige sehr zuverlässige Cluster – d.h. Wolken von Punkten, die sehr dicht gepackt sind – in den Daten. Gleichzeitig gibt es verstreute, isolierte Rauschpunkte, die zu keinem Cluster gehören. Man würde erwarten, dass bei der niedrigdimensionalen Einbettung die Rauschpunkte von den Clustern getrennt bleiben und nicht in diese eindringen. Jinke Liu und Martin Vinck zeigen jedoch, dass dies nicht der Fall ist: Die Rauschpunkte beginnen, in die Cluster einzudringen. Dies lässt sich durch die mathematischen Eigenschaften der niedrigdimensionalen Einbettungstechniken erklären, die sich aus dem Prinzip der Anziehung und Abstoßung ableiten: Um sicherzustellen, dass die Abstände im niedrigdimensionalen Raum den paarweisen Abständen im hochdimensionalen Raum maximal ähnlich sind, sollte sich ein Datenpunkt auf einen anderen Punkt zubewegen, der im hochdimensionalen Raum nahe ist (Anziehung). Aber er sollte sich von einem Punkt entfernen, der im hochdimensionalen Raum weit entfernt ist (Abstoßung). Da die Rauschpunkte alle sehr weit voneinander entfernt sind, beginnen sie sich gegenseitig abzustoßen – und in die Clusterpunkte einzudringen …

Entfernung muss anders quantifiziert werden

Jinke Liu und Martin Vinck zeigen nun, dass es einen eleganten Trick gibt, dieses Problem zu vermeiden. Sie nennen diesen „Distanz-der-Distanz-Transformation“. Dafür ändern sie die Art und Weise, in der die Entfernung quantifiziert wird. Anstelle des rohen euklidischen Abstands zwischen zwei Datenpunkten berechnen sie die Ähnlichkeit der Abstände zweier Datenpunkte zu ihren jeweiligen Nachbarn. Die Idee dahinter ist, dass Rauschpunkte sich nun stärker zueinander hingezogen fühlen, weil sie dazu neigen, recht ähnliche Abstände zu ihren jeweiligen Nachbarn zu haben. Die beiden Forscher liefern die mathematische Begründung und zeigen gleichzeitig, dass dies besonders gut in hochdimensionalen Räumen funktioniert, weil die niedrigdimensionalen Einbettungstechniken damit eine enorme Verbesserung aufweisen.

Bedeutung für Big Data

Die Arbeit ist von Bedeutung für alle die mit Big Data zu tun haben, aber insbesondere für die Neurowissenschaften und die Bioinformatik. So verwenden viele Mitarbeitende aus Martin Vincks Forschungsgruppe routinemäßig niedrigdimensionale Einbettungstechniken, um Daten zu clustern. Zum Beispiel, um verschiedene Arten von Zellen aus Aufzeichnungen zu isolieren oder um zu untersuchen, wie eine Population von Neuronen Informationen kodiert und zwischen verschiedenen visuellen Reizen, die ein Tier sieht, unterscheidet. Doktorand Jinke Liu schließt gerade eine zweite Arbeit ab, in der die niedrigdimensionale Einbettung anwendet, um zu untersuchen, wie sich neuronale Codes im Laufe der Zeit mit der Erfahrung verändern. Die Technik könnte auch in der Bioinformatik breite Anwendung finden, zum Beispiel um zu verstehen, wie viele verschiedene Zellklassen es in einem Hirnbereich gibt und wie sich diese von Tierart zu Tierart unterscheiden.


Originalpublikation:
Liu J, Vinck M (2022). Improved visualization of high-dimensional data using the distance-of-distance transformation. PLoS Computational Biology 18(12): e1010764. https://doi.org/10.1371/journal.pcbi.1010764