Alles über DATA All About DATA
Blog über Datenanalyse, Data Engineering und Data Science Blog about Data Analysis, Data Engineering and Data Science
Idee hinter dem Blog Idea behind the blog
Von der ersten Zeile Code bis zur Enterprise-Lösung – hier dokumentiere ich meinen Weg durch die Datenwelt. Was als kleine Skripte begann, entwickelte sich zu komplexen BI-Architekturen. Dieser Blog ist mein Notizbuch: Gelerntes festhalten, Angewendetes teilen, von Mini-Tools bis zu großen Projekten. Praktisch, ehrlich, aus der echten Arbeit. From the first line of code to enterprise solutions — this is where I document my journey through the data world. What started as small scripts evolved into complex BI architectures. This blog is my notebook: capture what I learn, share what I apply, from mini tools to large projects. Practical, honest, and from real work.
Interaktive Dashboards für Omics-Daten: Plotly, D3.js und dynamische Regler
Prolog: Warum statische Plots nicht reichen Ein Volcano-Plot zeigt 20.000 Gene — aber welches ist Ihr Kandidat? Eine Heatmap zeigt ...
Circos-Plots: Genomische Daten zirkulär visualisieren – Chromosomen, miRNA-Loci und Interaktionen
Prolog: Warum Kreise statt Linien? Das menschliche Genom ist linear — 3,2 Milliarden Basenpaare, verteilt auf 23 Chromosomenpaare. Aber die ...
Enrichment-Visualisierung: Dot Plots, Bubble Charts und Pathway-Analyse für miRNA-Seq
Prolog: Von der Genliste zum biologischen Verständnis Eine Differenzielle Expressionsanalyse liefert Hunderte signifikanter Gene. Aber was bedeuten sie? Eine Liste ...
Forest Plot und Meta-Analyse: Effektgrößen und Konfidenzintervalle für Omics-Studien
Prolog: Wenn eine Studie nicht reicht Einzelstudien lügen — nicht absichtlich, aber systematisch. Jede Studie hat ihre Stichprobe, ihre Methodik, ...
Kaplan-Meier und Survival-Analyse: miRNA-Biomarker in klinischen Studien visualisieren
Prolog: Die Uhr tickt In der klinischen Onkologie gibt es eine Frage, die alles andere überschattet: Wie lange überlebt der ...
Netzwerk-Graphen in der Omics-Forschung: Von Co-Expression zu miRNA-Target-Netzwerken
Prolog: Die Landkarte der Regulatoren Gene arbeiten nicht allein. Jedes Gen ist Teil eines Netzwerks aus Regulatoren, Targets und Feedback-Schleifen. ...
PCA und Dimensionsreduktion: Hochdimensionale Omics-Daten verstehen
Prolog: 1.000 Dimensionen, ein Blatt Papier Stellen Sie sich vor, Sie stehen vor einer Tabelle mit 60 Zeilen (Patientenproben) und ...
MA-Plot: Mean-Difference-Analyse für RNA-Seq und miRNA-Seq
Prolog: Die Asymmetrie, die niemand sieht Es gibt ein Problem, das in jeder RNA-Seq-Analyse lauert, aber selten diskutiert wird: Gene ...
Heatmaps und hierarchisches Clustering: Expressionsmuster in Omics-Daten sichtbar machen
Abstract Wenn 80 Plasmaproben von vier Krebstypen auf dem Tisch liegen und das Clustering „keinen Sinn macht“, beginnt die eigentliche ...
Volcano Plot für Omics-Daten: Effektstärke und Signifikanz auf einen Blick
Prolog: Die Akte der 2.500 Verdächtigen Es ist Montagmorgen im Bioinformatik-Labor der translationalen Onkologie. Auf dem Bildschirm leuchtet eine Tabelle ...
Polars + DuckDB für schnelle Omics-Analytics: Memory-effiziente Pipelines zwischen Notebook und Produktion
Abstract Polars und DuckDB repräsentieren eine neue Generation von Datenverarbeitungstools, die für analytische Workloads auf modernen Hardware-Architekturen optimiert sind. Während ...
Quarto für wissenschaftliche Reporting-Workflows: R und Python in einem reproduzierbaren Narrativ
Abstract Quarto ist das Open-Source-Publikationssystem der nächsten Generation für wissenschaftliches und technisches Schreiben. Als Nachfolger von R Markdown unterstützt es ...
tidymodels für klinische Omics-Modelle: Tuning, Resampling und saubere Vergleichbarkeit
Abstract tidymodels ist das R-Ökosystem für maschinelles Lernen im Tidyverse-Stil: deklarativ, modular und reproduzierbar. Es ersetzt das ältere caret-Paket durch ...
scikit-learn Pipeline für Biomarker-Klassifikation: Leakage vermeiden, Evidenz steigern
Abstract scikit-learn ist die Standard-Bibliothek für maschinelles Lernen in Python – und in der Bioinformatik ein unverzichtbares Werkzeug für Klassifikation, ...
scanpy in Single-Cell-Projekten: QC, Clustering und robuste Markerlogik
Abstract scanpy ist das Python-Referenzpaket für die Analyse von Single-Cell-RNA-Seq-Daten (scRNA-Seq). Es deckt die gesamte Pipeline ab – von der ...
WGCNA für Omics-Module: Von Koexpression zu klinisch interpretierbaren Clustern
Abstract WGCNA (Weighted Gene Co-expression Network Analysis) identifiziert Module ko-exprimierter Gene in großen Expressionsdatensätzen und korreliert diese mit klinischen oder ...
limma-voom in großen RNA-seq-Kohorten: Präzision, Speed und Modelltransparenz
Abstract limma-voom transformiert RNA-Seq-Zähldaten in gewichtete Log-CPM-Werte und analysiert sie mit dem bewährten linearen Modell-Framework von limma – einem der ...
edgeR in Omics-Pipelines: Dispersion-kontrollierte DE unter Produktionsdruck
Abstract edgeR (empirical analysis of digital gene expression in R) ist seit 2010 eines der meistzitierten Bioconductor-Pakete für die Analyse ...
DESeq2 in Omics-Pipelines: Von der Frage zur belastbaren Evidenz
Abstract Wenn ein Team in einem Omics-Projekt fragt, welche Gene oder miRNAs sich wirklich zwischen zwei Bedingungen unterscheiden, beginnt der ...
Data Analyst Engineering in Pipelines: Rolle, Methode und Wertbeitrag
AbstractDieser Beitrag untersucht die Rolle eines Data Analyst Engineers in produktiven Datenpipelines. Im Zentrum steht die Frage, wie analytische Anforderungen ...
Power BI: Überblick und Vergleich mit Tableau und Qlik