Dein Handy hat mindestens 15 Sensoren. Bewusst nutzt du vielleicht drei davon: den Touchscreen, das Mikrofon und die Kamera.

Der Rest läuft still im Hintergrund — erkennt Orientierung, misst Licht, erfasst Nähe, verfolgt Bewegung. Sie existieren, um deinen Bildschirm zu drehen, die Helligkeit anzupassen und das Display auszuschalten, wenn du das Handy ans Ohr hältst.

Aber diese Sensoren können noch etwas anderes. Sie können dir Vokabeln beibringen.

Die Idee

Sprachlern-Apps haben ein Problem: Sie sind stationär. Du sitzt. Du schaust auf einen Bildschirm. Du tippst. Dein Körper ist irrelevant.

Das ist wichtig, weil Gedächtnis nicht nur mental ist. Wenn du ein Wort lernst, während du eine physische Aktion ausführst, kodiert dein motorischer Kortex das Wort zusammen mit der Bewegung. Zwei Gedächtnissysteme statt einem. Kognitionswissenschaftler nennen das Embodied Cognition, und Jahrzehnte der Forschung zeigen, dass es die Behaltensleistung verbessert.

Das Problem ist, dass verkörpertes Lernen traditionell ein Klassenzimmer, einen Lehrer und physische Objekte erforderte. Apps konnten das nicht nachbilden.

Außer: Handys haben Sensoren, die physische Aktionen erkennen. Neigen, schütteln, abdecken, sprechen, gehen — all das ist erkennbar. Das bedeutet, ein Handy kann verifizieren, dass du etwas Physisches getan hast, und diese Aktion an ein Wort knüpfen.

Hier sind die fünf Sensoren, die das möglich machen.

1. Beschleunigungssensor + Gyroskop

Was sie erkennen: Bewegung, Neigung, Drehung und Orientierung im 3D-Raum.

Wofür sie normalerweise da sind: Bildschirmdrehung, Schrittzählung, Spielsteuerung.

Wie sie Vokabeln lehren:

Richtungs- und Bewegungswörter lassen sich natürlich auf Gerätebewegung abbilden.

Wort	Sprache	Aktion
adelante	Spanisch	Handy nach vorne neigen
rückwärts	Deutsch	Handy nach hinten neigen
secouer	Französisch	Handy schütteln
atas	Indonesisch	Handy nach oben bewegen
deprem	Türkisch	Schütteln um Erdbeben zu simulieren

Der Beschleunigungssensor liest Werte auf drei Achsen (x, y, z). Nach vorne neigen erhöht den y-Achsen-Wert. Schütteln erzeugt schnelle Schwankungen über alle Achsen. Drehung verändert die Gyroskop-Werte.

Das sind keine willkürlichen Gesten. „Vorwärts" wird durch Vorwärtsbewegen gelernt. „Schütteln" wird durch Schütteln gelernt. Die physische Aktion bedeutet das Wort.

Warum es funktioniert: Wenn du dich später an adelante erinnerst, feuert dein motorischer Kortex dasselbe Muster, das er beim Lernen kodiert hat. Die Erinnerung hat einen physischen Anker.

2. Näherungssensor

Was er erkennt: Wie nah etwas am Bildschirm des Handys ist.

Wofür er normalerweise da ist: Das Display ausschalten, wenn du das Handy während eines Anrufs ans Ohr hältst.

Wie er Vokabeln lehrt:

Wörter, die mit Nähe, Distanz, Zuhören und Verbindung zu tun haben, lassen sich natürlich auf das Annähern oder Entfernen von Dingen am Sensor abbilden.

Wort	Sprache	Aktion
escuchar	Spanisch	Handy ans Ohr bringen (hören)
nah	Deutsch	Hand nah an den Bildschirm bringen (nah)
loin	Französisch	Hand vom Bildschirm wegbewegen (fern)
gabung	Indonesisch	Handy mit der Hand abdecken (verbinden)
yakın	Türkisch	Hand nah an den Bildschirm bringen (nah)

Der Näherungssensor sendet Infrarotlicht aus und misst, wie viel zurückkommt. Wenn sich deine Hand oder dein Ohr nähert, steigt das Rücksignal sprunghaft an. Wenn du dich entfernst, sinkt es. Der Sensor kann zwischen „Annähern", „Nah halten" und „Zurückziehen" unterscheiden.

Ein Beispiel: Ein Spion flüstert kritische Informationen in einem Kalter-Krieg-Thriller. Das Wort escuchar (hören) erscheint. Du bringst das Handy ans Ohr. Der Näherungssensor erkennt die Annäherung. Das Flüstern wird hörbar. Das Wort wird zusammen mit der physischen Handlung kodiert, sich vorzulehnen um ein Geheimnis zu hören.

Warum es funktioniert: Escuchar ist keine Definition, die du auswendig gelernt hast. Es ist ein Flüstern, das du angestrengt gehört hast.

3. Mikrofon

Was es erkennt: Schallamplitude, Sprache und spezifische Audiomuster.

Wofür es normalerweise da ist: Telefonate, Sprachassistenten, Audioaufnahme.

Wie es Vokabeln lehrt:

Das Mikrofon kann mehr als nur Sprache erkennen. Es kann unterscheiden zwischen:

Pusten — anhaltender Luftstrom über das Mikrofon
Klatschen — scharfe Amplitudenspitzen
Zischen — leises, anhaltendes Geräusch

Wort	Sprache	Aktion
soplar	Spanisch	Ins Mikrofon pusten (blasen)
laut	Deutsch	In die Hände klatschen (laut)
silencieux	Französisch	Leise zischen (still)
tiup	Indonesisch	Ins Mikrofon pusten
alkış	Türkisch	In die Hände klatschen (Applaus)

Jeder Klangtyp hat eine eigene Wellenformsignatur. Pusten erzeugt ein anhaltendes niederfrequentes Signal. Klatschen produziert scharfe Amplitudenspitzen. Zischen registriert sich als weiches, kontinuierliches Signal, das sich sowohl von Sprache als auch von Umgebungsgeräuschen unterscheidet.

Ein Beispiel: Du musst eine Kerze in einer Geschichte auspusten. Das Wort soplar (blasen) erscheint. Du pustest in dein Handy. Das Mikrofon erkennt den Luftstrom. Die Kerze erlischt. Du hast gerade ein Verb durch die physische Handlung gelernt, die es beschreibt.

Warum es funktioniert: Du hast nicht gelesen, dass soplar „blasen" bedeutet. Du hast gepustet, und das Wort war da.

4. Kamera (mit ML)

Was sie erkennt: Mit maschinellem Lernen weit mehr als nur Bilder — Gesichter, Ausdrücke, Farben, Objekte, Text, Barcodes.

Wofür sie normalerweise da ist: Fotografie, Videoanrufe, QR-Scanning.

Wie sie Vokabeln lehrt:

Moderne Handys können On-Device-ML-Modelle ausführen, die erkennen:

Gesichtsausdrücke — Lächeln, geschlossene Augen, Zwinkern
Farben — dominante Farbe im Bild
Selfies — Frontkamera-Aufnahme für Begrüßungen

Wort	Sprache	Aktion
sonreír	Spanisch	In die Kamera lächeln
rouge	Französisch	Kamera auf etwas Rotes richten
ängstlich	Deutsch	Augen schließen (ängstlich)
biru	Indonesisch	Etwas Blaues finden
şaka	Türkisch	In die Kamera zwinkern (Witz)

Die Lächelerkennung nutzt ein Face-Mesh-Modell, das Gesichtslandmarken verfolgt. Wenn die Mundwinkel relativ zu den Wangen steigen, wird es als Lächeln registriert. Die Augenschlusserkennung verfolgt, ob beide Augenlider gleichzeitig fallen. Ein Zwinkern erkennt, dass ein Auge sich schließt während das andere offen bleibt. Die Farberkennung sampelt den dominanten Farbton aus dem Kamerafeed.

Ein Beispiel: Eine Figur begrüßt dich herzlich. Das Wort senyum (Lächeln) erscheint auf Indonesisch. Du lächelst dein Handy an. Die Frontkamera erkennt deinen Ausdruck. Die Figur lächelt zurück. Das Wort wird zusammen mit dem physischen Gefühl des Lächelns kodiert.

Warum es funktioniert: Emotionswörter werden zu emotionalen Erfahrungen. Senyum ist keine Übersetzung — es ist ein Gefühl, das du hattest.

5. Touchscreen (Gestenerkennung)

Was er erkennt: Touch-Position, Druck, Gestenmuster, Mehrfinger-Eingabe.

Wofür er normalerweise da ist: Alles — er ist die primäre Eingabe.

Wie er Vokabeln lehrt:

Touch-Gesten gehen über Tippen hinaus. Wischrichtung, Spreiz-/Kneifgeste, langes Drücken und Zeichenmuster können alle Bedeutung tragen.

Wort	Sprache	Aktion
essuyer	Französisch	Über den Bildschirm wischen
drücken	Deutsch	Lang drücken (drücken)
büyütmek	Türkisch	Spreizen zum Zoomen (vergrößern)
aquí	Spanisch	Zu dir ziehen (hier)
banyak	Indonesisch	Mehrere Ziele antippen (viele)

Der Touchscreen meldet Kontaktpunkte mit x/y-Koordinaten und Zeitstempeln. Die Ziehrichtung wird aus dem Vektor zwischen Start- und Endpunkt berechnet. Spreiz-Zoom verfolgt den Abstand zwischen zwei Kontaktpunkten über die Zeit. Multi-Target-Tippen registriert sequenzielle Treffer an verschiedenen Positionen.

Ein Beispiel: Nebel bedeckt ein Fenster in der Geschichte. Das Wort essuyer (wischen) erscheint. Du wischst über den Bildschirm. Der Nebel lichtet sich mit dem Pfad deines Fingers. Das Wort wird zusammen mit der physischen Wischbewegung kodiert.

Warum es funktioniert: Verben werden zu Aktionen. Du lernst nicht auswendig, was essuyer bedeutet — du tust es.

Über die Grundlagen hinaus

Sensoren sind erst der Anfang. Handys haben Hardware-Features und System-APIs, die noch kreativere Interaktionen ermöglichen:

Lautstärketasten — hoch drücken für „ja", runter für „nein"
Taschenlampe — einschalten um „aufwachen" zu lernen
Ladegerät-Anschluss — Handy einstecken um „essen" zu lernen (dein Handy hat auch Hunger)
Screenshot — Bildschirm aufnehmen um „erinnern" zu lernen
Schrittzähler — 10 Schritte gehen um „gehen" zu lernen
Handy umdrehen — Handy mit dem Display nach unten auf den Tisch legen um „tschüss" zu lernen
Bildschirm aus — den Power-Knopf drücken um „ruhen" zu lernen

Die Einschränkung ist, dass Interaktionen nur lehren können, was sie physisch darstellen können. Man kann den Beschleunigungssensor nicht nutzen, um das Wort für „Demokratie" zu lehren. Aber für konkretes Vokabular — Richtungen, Aktionen, Empfindungen, Objekte, Emotionen — bieten physische Interaktionen eine Verankerung, die Bildschirme allein nicht schaffen.

Alles zusammen

Sensoren sind am mächtigsten in Kombination. Eine einzelne Interaktion könnte nutzen:

Beschleunigungssensor um zu erkennen, dass du dich nach vorne neigst
Näherungssensor um zu erkennen, dass du das Handy ans Ohr gebracht hast
Mikrofon um zu erkennen, dass du pustest um Deckung zu erzeugen
Touchscreen um zu erkennen, dass du wischst um Nebel wegzuwischen

Vier Sensoren, eine zusammenhängende Aktion: sich durch einen Spionagethriller bewegen. Vier Vokabelwörter, eine physische Erinnerung.

Das ist es, was Total Physical Response im Klassenzimmer macht — reichhaltige, verkörperte Erfahrungen rund um Sprache schaffen. Sensoren ermöglichen es einer App, dasselbe zu tun, allein, überall.

Die technischen Kompromisse

Sensorbasiertes Lernen ist nicht trivial zu bauen. Einige Herausforderungen:

Kalibrierung variiert je nach Gerät. Ein Beschleunigungssensor auf einem Android-Handy von 2019 liest anders als auf einem iPhone von 2024. Schwellenwerte müssen adaptiv sein.

Timing ist alles. Wenn es eine Verzögerung von 500ms zwischen deiner Aktion und der App-Reaktion gibt, schwächt sich die verkörperte Verbindung ab. Sensor-Polling muss schnell sein.

Akkuverbrauch. Kontinuierliches Sensor-Polling frisst Akku. Intelligentes Duty-Cycling — nur pollen wenn die App Eingabe erwartet — ist essentiell.

Barrierefreiheit. Nicht jeder Nutzer kann alle physischen Aktionen ausführen. Alternative Interaktionsmodi für Nutzer mit motorischen Einschränkungen anzubieten ist wichtig.

Das „In-der-Öffentlichkeit-machen"-Problem. Manche Leute fühlen sich unwohl, ihr Handy in der U-Bahn zu neigen oder hineinzupusten. Story-Kontexte helfen — du gestikulierst nicht zufällig, du tust etwas in einer Erzählung.

Das sind lösbare Probleme. Der Vorteil ist eine Vokabel-Erinnerungsrate, die passive Apps nicht erreichen können.

Warum das bisher noch nicht gemacht wurde

Karteikarten sind einfach zu bauen. Zeige Wort, drehe Karte, protokolliere Ergebnis. Der SRS-Algorithmus besteht aus ein paar Dutzend Zeilen Code. Man kann eine Karteikarten-App an einem Wochenende ausliefern.

Sensorbasierte Interaktionen sind schwierig. Man braucht:

Geräte-APIs für jeden Sensor
Kalibrierung über Hunderte von Gerätemodellen
ML-Modelle für kamerabasierte Erkennung
Niedriges Latenz-Polling, das den Akku nicht leert
Inhalte, die um spezifische physische Aktionen herum gestaltet sind
Narrativen Kontext, der die Aktionen bedeutungsvoll macht

Die meisten Sprachlern-Startups optimieren auf Time-to-Market und Engagement-Metriken. Sensoren sind langsam zu bauen und treiben deine DAU-Zahlen nicht hoch.

Aber wenn dein Ziel tatsächliche Behaltensleistung ist — Wörter, die monatelang ohne Wiederholung haften bleiben — dann lohnt sich die Investition.

Probier es selbst

Du kannst das Prinzip ohne jede App testen:

Wähle ein Wort mit einer physischen Bedeutung (eine Richtung, eine Aktion, eine Empfindung)
Führe die physische Aktion aus, während du das Wort sagst
Wiederhole es in 3 verschiedenen Kontexten über 2 Tage
Prüfe deine Erinnerung nach einer Woche ohne Wiederholung

Wenn das Wort besser haftet als dein Karteikarten-Vokabular, hast du gerade den sensorbasierten Ansatz mit dem ursprünglichen Sensor validiert: deinem eigenen Körper.

Ich habe Sensonym gebaut, um das skalierbar zu machen. 15+ Sensoren, 40+ Interaktionstypen, 10 Sprachen, verpackt in Geschichten, die physischen Aktionen narrative Bedeutung geben. Jetzt kostenlos testen

Weiterführende Lektüre

Warum Karteikarten verblassen (und was die Wissenschaft wirklich empfiehlt) — Die Kognitionswissenschaft hinter verkörpertem Lernen
Ich habe 200 deutsche Wörter gelernt, indem ich mein Handy geneigt habe — Ein persönliches Experiment mit diesem Ansatz
Was ist Total Physical Response? — Die Lehrmethode aus den 1960ern, die sensorbasiertes Lernen inspiriert hat