Kostenlose Beratung
07930-2699
150.000
Kunden
Sicherer
Versand
Keine
Meldepflicht
Kettner Edelmetalle
Menü
12.06.2025
14:59 Uhr

Meta zeigt der KI-Branche den Spiegel: Während alle auf Pixelgenerierung setzen, baut Zuckerbergs Team echte Intelligenz

Die Tech-Giganten liefern sich ein Wettrüsten um die schönsten KI-generierten Videos. OpenAI prahlt mit Sora, Google kontert mit Veo, und Nvidia wirft Cosmos in den Ring. Doch während alle auf den Pixelzug aufspringen, fährt Meta einen radikal anderen Kurs – und könnte damit die gesamte Branche vorführen.

Mit V-JEPA 2 präsentiert der Facebook-Konzern ein 1,2 Milliarden Parameter starkes Videomodell, das nicht versucht, jeden Grashalm perfekt zu generieren. Stattdessen entwickelt es ein echtes Verständnis der physikalischen Welt. Der Clou: Das System kann Roboter steuern – und das nach nur 62 Stunden Training mit Roboterdaten.

Yann LeCun rechnet mit der Konkurrenz ab

Metas Chefwissenschaftler Yann LeCun, eine Koryphäe der KI-Forschung, bezeichnet generative Modelle wie Sora unverblümt als "Sackgasse". Eine bemerkenswerte Kampfansage an die gesamte Branche, die Milliarden in die Pixelperfektion pumpt. Seine Alternative heißt Joint Embedding Predictive Architecture (JEPA) – ein Ansatz, der fundamental anders tickt.

Während Sora und Co. versuchen, jedes Detail vorherzusagen – wo genau welches Blatt am Baum hängt, wie der Schatten fällt –, konzentriert sich V-JEPA 2 auf das Wesentliche. Es lernt abstrakte Konzepte: Der Ball wird fallen. Das Objekt bewegt sich nach links. Punkt.

Diese Abstraktion macht das System nicht nur effizienter, sondern auch praktisch nutzbar. Für die Planung einer Roboteraktion benötigt V-JEPA 2 gerade einmal 16 Sekunden. Nvidias generatives Cosmos-Modell? Braucht satte vier Minuten. Das ist der Unterschied zwischen einem System, das versteht, und einem, das nur nachahmt.

Lernen wie ein Kleinkind – nur schneller

Das Training von V-JEPA 2 erfolgt in zwei Phasen, die an die menschliche Entwicklung erinnern. Zunächst verschlingt das Modell über eine Million Stunden Videomaterial – ohne jede menschliche Anleitung. Es beobachtet die Welt aus verschiedenen Perspektiven: Ich-Perspektive, Außenansichten, Tutorial-Videos, gefilterte YouTube-Inhalte.

Der technische Kniff dabei: Ein "Encoder" mit einer Milliarde Parametern übersetzt die Videos in abstrakte Repräsentationen. Teile der Videos werden ausgeblendet, und ein "Predictor" muss vorhersagen, was in den Lücken passiert – aber eben nicht pixelgenau, sondern konzeptionell.

In der zweiten Phase kommt die Robotersteuerung ins Spiel. Und hier wird es wirklich beeindruckend: Nur 62 Stunden Roboterdaten aus einem öffentlichen Datensatz genügen. Andere Systeme brauchen tausende Stunden spezifischer Trainingsdaten und müssen für jede neue Umgebung neu trainiert werden. V-JEPA 2? Funktioniert einfach.

Von der Theorie zur Praxis: Roboter greifen zu

Die Leistungsfähigkeit zeigt sich in harten Zahlen. Beim Something-Something v2 Datensatz, der komplexe Bewegungen testet, erreicht V-JEPA 2 eine Genauigkeit von 77,3 Prozent – deutlich über der Konkurrenz. Bei der Vorhersage zukünftiger Aktionen im Epic-Kitchens-100 Test kann das Modell eine Sekunde im Voraus mit 39,7 Prozent Trefferquote vorhersagen, welche Aktion als nächstes kommt. Das ist eine Verbesserung von 44 Prozent gegenüber bisherigen Systemen.

Aber der wahre Test findet in der realen Welt statt. Meta ließ V-JEPA 2 zwei verschiedene Franka-Roboterarme in völlig neuen Laborumgebungen steuern – ohne zusätzliches Training. Bei Aufgaben wie dem Greifen einer Tasse oder dem Platzieren von Objekten erreichte das System Erfolgsraten zwischen 65 und 80 Prozent.

Die Steuerung funktioniert dabei verblüffend intuitiv: Der Roboter bekommt ein Foto des Zielzustands gezeigt. V-JEPA 2 plant dann schrittweise, simuliert verschiedene Bewegungen in seinem gelernten Weltmodell und wählt die vielversprechendste aus. Nach jeder Bewegung wird neu geplant – wie ein Mensch, der eine Aufgabe löst.

Die unbequeme Wahrheit: KI versteht die Welt noch nicht wirklich

Doch Meta macht auch etwas, was in der Branche selten ist: Sie zeigen schonungslos die Grenzen auf. Drei neue Benchmarks offenbaren die Lücke zwischen KI und menschlichem Physikverständnis.

Der IntPhys 2 Test, inspiriert von entwicklungspsychologischen Experimenten, zeigt Videopaare mit physikalischen Unmöglichkeiten – etwa ein Ball, der plötzlich nach oben statt nach unten fällt. Menschen erkennen das sofort. Selbst V-JEPA 2? Liegt kaum über dem Zufallsniveau.

Der MVPBench geht noch weiter mit geschickt konstruierten Videopaaren, die oberflächliche Tricks verhindern. V-JEPA 2 erreicht hier mit 44,5 Prozent zwar die beste Leistung aller getesteten Systeme, aber das ist immer noch weit von menschlicher Performance entfernt.

Besonders aufschlussreich ist der CausalVQA-Test für kausales Verständnis. Die Modelle müssen kontrafaktische Fragen beantworten ("Was wäre passiert, wenn..."). Das Ergebnis: Aktuelle KI-Systeme können gut beschreiben, was sie sehen, aber sie verstehen nicht wirklich, warum etwas passiert.

Die Zukunft gehört den Hierarchien

V-JEPA 2 hat noch Schwächen. Langfristige Planung über mehrere Minuten? Fehlanzeige. Empfindlichkeit gegenüber Kamerapositionen? Ein Problem in der Praxis. Doch Metas Vision ist klar: Hierarchische Modelle, die auf verschiedenen Zeitskalen planen können – vom Bruchteil einer Sekunde bis zu Stunden.

Interessanterweise gibt auch Meta die generative KI nicht völlig auf. Mark Zuckerberg rekrutiert gerade ein Team für genau diese Forschung. Vielleicht ist das der klügste Schachzug: Beide Wege parallel verfolgen und schauen, welcher zum Ziel führt.

Während die Konkurrenz weiter Pixel perfektioniert, baut Meta an echter maschineller Intelligenz. V-JEPA 2 mag noch nicht perfekt sein, aber es zeigt einen Weg auf, der über die bloße Nachahmung hinausgeht. In einer Welt, in der KI-Hype oft wichtiger scheint als KI-Substanz, ist das erfrischend ehrlich – und möglicherweise wegweisend.

Wissenswertes zum Thema

Erhalten Sie kostenlose Tipps um Ihr Vermögen zu schützen und als erster von neuen Produkten zu erfahren

Sie möchten regelmäßig über Produktneuheiten, spannende Finanznachrichten und exklusive Sonderangebote informiert werden? Dann melden Sie sich hier für den kostenfreien Kettner Edelmetalle Newsletter an.

Durch Eingabe Ihrer E-Mail-Adresse und Anklicken des Buttons „Abschicken“ geben Sie die folgende Einwilligungserklärung ab: „Ich bin damit einverstanden, per E-Mail über Produktneuheiten, spannende Finanznachrichten und exklusive Sonderangebote informiert zu werden und willige daher in die Verarbeitung meiner E-Mail-Adresse zum Zwecke der Zusendung des Newsletters ein. Diese Einwilligung kann ich jederzeit und ohne Angabe von Gründen mit Wirkung für die Zukunft widerrufen. Die Rechtmäßigkeit der bis zum Widerruf erfolgten Verarbeitung bleibt im Falle des Widerrufs unberührt.“