Kaplan-Meier und Survival-Analyse: miRNA-Biomarker in klinischen Studien visualisierenKaplan-Meier and Survival Analysis: Visualizing miRNA Biomarkers in Clinical Studies

Prolog: Die Uhr tickt

In der klinischen Onkologie gibt es eine Frage, die alles andere überschattet: Wie lange überlebt der Patient? Keine andere Visualisierung beantwortet diese Frage so direkt wie die Kaplan-Meier-Kurve. Sie zeigt die Überlebenswahrscheinlichkeit als Funktion der Zeit — Schritt für Schritt, Patient für Patient, unbestechlich wie eine Stoppuhr.

In dieser Geschichte folgen wir einer Kohorte von 240 Brustkrebspatientinnen und untersuchen, ob die Expression bestimmter miRNAs — mikroskopisch kleine RNA-Moleküle — vorhersagen kann, wer überlebt und wer nicht. Die Kaplan-Meier-Kurve wird unser Werkzeug sein, die Wahrheit aufzudecken.

Kapitel 1: Zwei Kurven, eine Wahrheit — miR-21 und Überleben

Der erste Schritt jeder Survival-Analyse: Die Kohorte in zwei Gruppen teilen. In unserem Fall nach miR-21-Expression — einem Onkomir, das in vielen Krebsarten überexprimiert ist. Die hohe Gruppe (n=120) hat miR-21-Werte über dem Median, die niedrige Gruppe (n=120) darunter.

Der Kaplan-Meier-Plot zeigt das Ergebnis sofort und unmissverständlich: Die rote Kurve (hohe miR-21) fällt schneller als die blaue (niedrige miR-21). Die Konfidenzintervalle überkreuzen sich kaum. Der Log-Rank-Test bestätigt: p < 0.001 — dieser Unterschied ist nicht zufällig.

Kaplan-Meier: miR-21 hoch vs. niedrig — Gesamtüberleben Brustkrebs
Abb. 1: Kaplan-Meier-Kurven für hohe (rot) vs. niedrige (blau) miR-21-Expression. Die vertikalen Striche markieren zensierte Beobachtungen (Patienten, die zum Zeitpunkt lebten, aber aus der Studie ausschieden). Das schattierte Band zeigt das 95%-Konfidenzintervall.

Aber die Kaplan-Meier-Kurve erzählt mehr als nur den Unterschied. Sie zeigt das Tempo der Überlebens-Verschlechterung: In den ersten 12 Monaten sind beide Gruppen noch relativ nah beieinander. Dann divergieren die Kurven — die Schere öffnet sich. Die meisten Events in der Hochgruppe treten zwischen Monat 12 und 36 auf. Das Timing ist therapeutisch relevant.

Kapitel 2: Drei Wege — Tertilanalyse und Medianüberleben

Zwei Gruppen sind gut, drei sind besser. Die Tertilanalyse teilt die Kohorte in drei gleich große Gruppen nach miR-21-Expression: niedrig, mittel, hoch. Jetzt können wir eine Dosis-Wirkungs-Beziehung sehen: Je höher die miR-21-Expression, desto schlechter das Überleben?

Kaplan-Meier Tertilanalyse: Medianüberleben im Vergleich
Abb. 2: Drei Tertile der miR-21-Expression. Die farbigen Punkte markieren das Medianüberleben — der Zeitpunkt, an dem 50% der Gruppe verstorben ist. Die gestaffelte Reihenfolge (grün > gelb > rot) zeigt eine klare Dosis-Wirkungs-Beziehung.

Das Medianüberleben ist der klinisch wichtigste Wert: 50% Überlebenswahrscheinlichkeit. In der niedrigen Gruppe liegt es bei ~48 Monaten, in der mittleren bei ~32 Monaten, in der hohen bei ~18 Monaten. Der Log-Rank Trend-Test bestätigt den monotonen Zusammenhang (p < 0.001). Für den Kliniker bedeutet das: Ein 2,5-facher Überlebensunterschied, allein basierend auf einem einzigen miRNA-Biomarker.

Kapitel 3: Die Zahl unter der Kurve — Number at Risk

Jede seriöse Kaplan-Meier-Darstellung braucht eine Number-at-Risk-Tabelle. Sie zeigt, wie viele Patienten zu jedem Zeitpunkt noch unter Beobachtung stehen. Ohne diese Information ist die Kurve am rechten Rand unzuverlässig: Wenn nur noch 5 von 120 Patienten beobachtet werden, können einzelne Events die Kurve dramatisch verändern.

Kaplan-Meier mit Number-at-Risk-Tabelle
Abb. 3: Die Number-at-Risk-Tabelle unter der Kurve zeigt die „statistische Stärke" zu jedem Zeitpunkt. Bei Monat 48 sind nur noch wenige Patienten in der Analyse — die Kurve wird unsicher, erkennbar am breiteren Konfidenzband.

Die Tabelle entlarvt ein häufiges Problem klinischer Studien: Loss to Follow-up. Wenn die Zahl der at-Risk-Patienten schnell sinkt, obwohl wenige Events auftreten, dann werden viele Patienten zensiert — sie scheiden aus der Studie aus, ohne dass wir ihr Schicksal kennen. Eine hohe Zensierungsrate am rechten Rand macht späte Überlebensschätzungen unzuverlässig.

Kapitel 4: Vier Verdächtige — Das Multi-miRNA-Panel

Ein einzelner Biomarker ist selten perfekt. In der modernen Onkologie testet man Panels aus mehreren miRNAs gleichzeitig. Jede miRNA hat ihren eigenen Effekt auf das Überleben: miR-21 und miR-155 sind Onkomirs (hohe Expression = schlechte Prognose), miR-34a und miR-200c sind Tumorsuppressoren (niedrige Expression = schlechte Prognose).

Multi-miRNA Survival Panel: 4 Biomarker-Kandidaten
Abb. 4: Vier Kaplan-Meier-Kurven für vier miRNA-Biomarker. Onkomirs (miR-21, miR-155): Hohe Expression = rote Kurve unten. Tumorsuppressoren (miR-34a, miR-200c): Hohe Expression = rote Kurve unten (= niedrige Expression ist das Risiko). Die Panelansicht erlaubt den direkten Vergleich der Effektstärken.

Das Multi-Panel zeigt drei Dinge: Erstens, alle vier miRNAs haben einen signifikanten Effekt auf das Überleben. Zweitens, die Effektstärke variiert — miR-21 trennt stärker als miR-155. Drittens, die Richtung kehrt sich um: Bei Onkomirs ist hoch=schlecht, bei Suppressoren ist niedrig=schlecht. Ein kombiniertes Risk-Score-Modell kann diese Information integrieren.

Kapitel 5: Der Kontext zählt — Subtyp-Stratifizierung

Brustkrebs ist keine einheitliche Krankheit — er hat mindestens vier molekulare Subtypen. Ein Biomarker, der in der Gesamtkohorte signifikant ist, muss nicht in jedem Subtyp funktionieren. Die Stratifizierung nach Subtyp zeigt, ob miR-21 universell prognostisch ist oder nur in bestimmten Kontexten.

Subtyp-stratifizierte Survival-Analyse: Luminal A vs. Triple-Negative
Abb. 5: miR-21-Effekt nach Brustkrebs-Subtyp. Links: Luminal A (moderater Effekt, p = 0.024). Rechts: Triple-Negative (starker Effekt, p < 0.001). Der gleiche Biomarker hat unterschiedliche Vorhersagekraft je nach biologischem Kontext.

Die Stratifizierung enthüllt eine fundamentale Wahrheit der Precision Medicine: Biomarker sind kontextabhängig. miR-21 ist in Triple-Negative-Brustkrebs (TNBC) ein starker Prognosefaktor, weil TNBC besonders von der miR-21-regulierten Apoptose-Unterdrückung abhängt. In Luminal A ist der Effekt schwächer, weil andere Signalwege (Hormonrezeptoren) dominieren.

Kapitel 6: Das Gesamtbild — Kombinierter Risk Score

Der letzte Schritt: Alle vier miRNAs in einen kombinierten Risk Score integrieren. Die Cox-Regression gewichtet jeden Biomarker nach seinem unabhängigen Beitrag zur Prognose. Patienten werden dann in „Hochrisiko" und „Niedrigrisiko" eingeteilt — basierend auf der kombinierten Signatur.

Kombinierter Risk Score: KM-Kurve und Hazard Ratios
Abb. 6: Links: Kaplan-Meier der kombinierten miRNA-Signatur (HR = 2.8). Rechts: Univariate Hazard Ratios aller vier miRNAs und des kombinierten Scores. Der kombinierte Score trennt besser als jeder Einzelmarker — das ist die Stärke des Multi-Marker-Ansatzes.

Der kombinierte Score erreicht eine Hazard Ratio von 2.8 — das bedeutet: Hochrisiko-Patienten haben ein 2,8-fach erhöhtes Sterberisiko. Kein Einzelmarker erreicht diesen Wert allein. Die Forest-Plot-Ansicht rechts zeigt die Einzelbeiträge: miR-34a hat den stärksten individuellen Effekt (HR = 1.9), gefolgt von miR-21 (HR = 1.8). Die Kombination ist mehr als die Summe ihrer Teile.

Epilog: Die Kurve als Versprechen

Die Kaplan-Meier-Kurve ist mehr als eine Grafik — sie ist ein Versprechen an den Patienten. Sie zeigt, basierend auf den Erfahrungen Hunderter vorheriger Patienten, wie die Prognose aussieht. Kombiniert mit miRNA-Biomarkern wird diese Prognose präziser, personalisierter und handlungsfähiger. Die Survival-Analyse transformiert molekulare Daten in klinische Entscheidungen.

Zitationen

  • Kaplan, E. L. & Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53(282), 457-481.
  • Yan, L.-X. et al. (2008). MicroRNA miR-21 overexpression in human breast cancer is associated with advanced clinical stage, lymph node metastasis and patient poor prognosis. RNA, 14(11), 2348-2360.
  • Volinia, S. et al. (2012). Breast cancer signatures for invasiveness and prognosis defined by deep sequencing of microRNA. PNAS, 109(8), 3024-3029.
  • Cox, D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society: Series B, 34(2), 187-202.
  • Rich, J. T. et al. (2010). A practical guide to understanding Kaplan-Meier curves. Otolaryngology — Head and Neck Surgery, 143(3), 331-336.

Fazit

Die Kaplan-Meier-Analyse ist das Rückgrat der klinischen Biomarker-Forschung. Von der einfachen Zwei-Gruppen-Kurve über Tertilanalysen und Multi-Panel-Vergleiche bis zur kombinierten Risk-Score-Validierung — jeder Schritt fügt der Evidenz eine weitere Dimension hinzu. Die Number-at-Risk-Tabelle garantiert Transparenz, die Subtyp-Stratifizierung garantiert Relevanz, und die Cox-Regression quantifiziert den Effekt.

Dokumentation

ParameterWert
Kohorte240 Brustkrebspatientinnen (simuliert)
BiomarkermiR-21, miR-155, miR-34a, miR-200c
EndpunktGesamtüberleben (OS, 60 Monate)
StatistikLog-Rank-Test, Cox-Regression
SubtypenLuminal A, Triple-Negative (TNBC)
Risk ScoreKombinierte miRNA-Signatur (HR = 2.8)
Visualisierungmatplotlib (Python)

Prologue: The Clock Is Ticking

In clinical oncology, one question overshadows everything else: How long will the patient survive? No other visualization answers this question as directly as the Kaplan-Meier curve. It shows survival probability as a function of time — step by step, patient by patient, incorruptible as a stopwatch.

In this story, we follow a cohort of 240 breast cancer patients and investigate whether the expression of specific miRNAs — microscopically small RNA molecules — can predict who survives and who does not. The Kaplan-Meier curve will be our tool to uncover the truth.

Chapter 1: Two Curves, One Truth — miR-21 and Survival

The first step of any survival analysis: Split the cohort into two groups. In our case by miR-21 expression — an oncomiR overexpressed in many cancer types. The high group (n=120) has miR-21 values above the median, the low group (n=120) below.

The Kaplan-Meier plot shows the result immediately and unambiguously: The red curve (high miR-21) drops faster than the blue (low miR-21). The confidence intervals barely overlap. The log-rank test confirms: p < 0.001 — this difference is not random.

Kaplan-Meier: miR-21 high vs. low — Overall survival breast cancer
Fig. 1: Kaplan-Meier curves for high (red) vs. low (blue) miR-21 expression. Vertical tick marks indicate censored observations (patients alive at the time but lost to follow-up). The shaded band shows the 95% confidence interval.

But the Kaplan-Meier curve tells more than just the difference. It shows the tempo of survival deterioration: In the first 12 months, both groups are still relatively close. Then the curves diverge — the scissors open. Most events in the high group occur between months 12 and 36. The timing is therapeutically relevant.

Chapter 2: Three Paths — Tertile Analysis and Median Survival

Two groups are good, three are better. Tertile analysis splits the cohort into three equal groups by miR-21 expression: low, medium, high. Now we can see a dose-response relationship: The higher the miR-21 expression, the worse the survival?

Kaplan-Meier tertile analysis: Median survival comparison
Fig. 2: Three tertiles of miR-21 expression. Colored dots mark the median survival — the timepoint when 50% of the group has died. The staggered order (green > yellow > red) shows a clear dose-response relationship.

Median survival is the clinically most important value: 50% survival probability. In the low group it's ~48 months, in the medium group ~32 months, in the high group ~18 months. The log-rank trend test confirms the monotonic relationship (p < 0.001). For the clinician, this means: A 2.5-fold survival difference based solely on a single miRNA biomarker.

Chapter 3: The Number Beneath the Curve — Number at Risk

Every serious Kaplan-Meier presentation needs a number-at-risk table. It shows how many patients are still under observation at each timepoint. Without this information, the curve at the right tail is unreliable: When only 5 of 120 patients are being observed, individual events can dramatically change the curve.

Kaplan-Meier with number-at-risk table
Fig. 3: The number-at-risk table below the curve shows the "statistical strength" at each timepoint. At month 48, only few patients remain in the analysis — the curve becomes uncertain, visible from the wider confidence band.

The table exposes a common problem in clinical studies: Loss to follow-up. When the number of at-risk patients decreases rapidly despite few events occurring, many patients are being censored — they leave the study without us knowing their fate. A high censoring rate at the right tail makes late survival estimates unreliable.

Chapter 4: Four Suspects — The Multi-miRNA Panel

A single biomarker is rarely perfect. In modern oncology, panels of multiple miRNAs are tested simultaneously. Each miRNA has its own effect on survival: miR-21 and miR-155 are oncomiRs (high expression = poor prognosis), miR-34a and miR-200c are tumor suppressors (low expression = poor prognosis).

Multi-miRNA survival panel: 4 biomarker candidates
Fig. 4: Four Kaplan-Meier curves for four miRNA biomarkers. OncomiRs (miR-21, miR-155): High expression = red curve below. Tumor suppressors (miR-34a, miR-200c): High expression = red curve below (= low expression is the risk). The panel view allows direct comparison of effect sizes.

The multi-panel shows three things: First, all four miRNAs have a significant effect on survival. Second, effect sizes vary — miR-21 separates more strongly than miR-155. Third, the direction reverses: For oncomiRs, high=bad; for suppressors, low=bad. A combined risk score model can integrate this information.

Chapter 5: Context Matters — Subtype Stratification

Breast cancer is not a uniform disease — it has at least four molecular subtypes. A biomarker significant in the overall cohort need not work in every subtype. Stratification by subtype shows whether miR-21 is universally prognostic or only in specific contexts.

Subtype-stratified survival analysis: Luminal A vs. Triple-Negative
Fig. 5: miR-21 effect by breast cancer subtype. Left: Luminal A (moderate effect, p = 0.024). Right: Triple-Negative (strong effect, p < 0.001). The same biomarker has different predictive power depending on biological context.

Stratification reveals a fundamental truth of precision medicine: Biomarkers are context-dependent. miR-21 is a strong prognostic factor in Triple-Negative Breast Cancer (TNBC) because TNBC is particularly dependent on miR-21-regulated apoptosis suppression. In Luminal A, the effect is weaker because other pathways (hormone receptors) dominate.

Chapter 6: The Complete Picture — Combined Risk Score

The final step: Integrate all four miRNAs into a combined risk score. Cox regression weights each biomarker by its independent contribution to prognosis. Patients are then classified as "high-risk" or "low-risk" — based on the combined signature.

Combined risk score: KM curve and hazard ratios
Fig. 6: Left: Kaplan-Meier of the combined miRNA signature (HR = 2.8). Right: Univariate hazard ratios of all four miRNAs and the combined score. The combined score separates better than any individual marker — this is the strength of the multi-marker approach.

The combined score achieves a hazard ratio of 2.8 — meaning high-risk patients have a 2.8-fold increased risk of death. No single marker achieves this value alone. The forest plot view on the right shows individual contributions: miR-34a has the strongest individual effect (HR = 1.9), followed by miR-21 (HR = 1.8). The combination is more than the sum of its parts.

Epilogue: The Curve as Promise

The Kaplan-Meier curve is more than a graph — it is a promise to the patient. It shows, based on the experience of hundreds of previous patients, what the prognosis looks like. Combined with miRNA biomarkers, this prognosis becomes more precise, more personalized, and more actionable. Survival analysis transforms molecular data into clinical decisions.

Citations

  • Kaplan, E. L. & Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53(282), 457-481.
  • Yan, L.-X. et al. (2008). MicroRNA miR-21 overexpression in human breast cancer is associated with advanced clinical stage, lymph node metastasis and patient poor prognosis. RNA, 14(11), 2348-2360.
  • Volinia, S. et al. (2012). Breast cancer signatures for invasiveness and prognosis defined by deep sequencing of microRNA. PNAS, 109(8), 3024-3029.
  • Cox, D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society: Series B, 34(2), 187-202.
  • Rich, J. T. et al. (2010). A practical guide to understanding Kaplan-Meier curves. Otolaryngology — Head and Neck Surgery, 143(3), 331-336.

Conclusion

Kaplan-Meier analysis is the backbone of clinical biomarker research. From simple two-group curves through tertile analyses and multi-panel comparisons to combined risk score validation — each step adds another dimension to the evidence. The number-at-risk table guarantees transparency, subtype stratification guarantees relevance, and Cox regression quantifies the effect.

Documentation

ParameterValue
Cohort240 breast cancer patients (simulated)
BiomarkersmiR-21, miR-155, miR-34a, miR-200c
EndpointOverall survival (OS, 60 months)
StatisticsLog-rank test, Cox regression
SubtypesLuminal A, Triple-Negative (TNBC)
Risk scoreCombined miRNA signature (HR = 2.8)
Visualizationmatplotlib (Python)
No track selected

Click play to start