08.09.2025
Googles neuestes Bildgenerierungs- und Bearbeitungsmodell, bekannt unter dem Codenamen "Nano Banana" (offiziell Teil von Gemini 2.5 Flash Image), hebt sich durch eine Reihe von innovativen Funktionen von anderen KI-Bildgenerierungstools wie DALL-E 3 oder Midjourney ab. Das Besondere an Nano Banana liegt vor allem in seiner Fähigkeit zur kontextbezogenen und dialogorientierten Bildbearbeitung, die weit über die reine Erstellung von Bildern hinausgeht.
Ein Hauptunterscheidungsmerkmal ist die mehrstufige, textbasierte Bildbearbeitung. Nutzer können ein bestehendes Bild hochladen und der KI in natürlicher Sprache Anweisungen geben, um spezifische Änderungen vorzunehmen. Dieser Prozess kann iterativ erfolgen, ähnlich einem Gespräch. Man kann beispielsweise den Hintergrund ändern, Kleidung anpassen, Objekte hinzufügen oder entfernen, und die KI behält dabei wichtige Details und die Konsistenz der Person oder des Objekts bei. Andere Tools erfordern oft eine komplett neue Generierung oder bieten weniger präzise Bearbeitungsmöglichkeiten.
Hier ein Beispiel, wie Kleidung, Bildausschnitt, Hintergrunddetails und der Schattenfall bei Gemini identisch bleiben. Dagegen erzeugt DALL-E 3 zwar ähnliche Bilder, die aber in Details voneinander abweichen.
1. Prompt: A photorealistic image of a young Asian woman wearing a pink tiered sundress, standing in front of a vibrant pink bougainvillea wall. The scene should be cohesive and sunlit, with no other elements like separate blocks of dresses or backgrounds visible.
2. Prompt (zur Überarbeitung des grade erstellen Bildes): The woman shall be in the Arabesque body position known from ballet.
Ein weiteres herausragendes Merkmal ist die Bildfusion. Nano Banana ermöglicht es, mehrere Bilder nahtlos zu einer neuen Komposition zu verschmelzen. So können beispielsweise eine Person aus einem Foto und ein Haustier aus einem anderen in einer völlig neuen Umgebung platziert werden, wobei die KI für eine realistische Integration sorgt. Die Konsistenz von Charakteren und Details ist ein weiterer signifikanter Vorteil. Während viele KI-Bildgeneratoren bei wiederholten Generierungen Schwierigkeiten haben, das Aussehen einer Person oder eines Objekts beizubehalten, zeichnet sich Nano Banana dadurch aus, Merkmale auch bei umfangreichen Änderungen am Bild beizubehalten. Dies ist besonders für die Erstellung von Bilderserien oder für professionelle Anwendungen in Werbung und Design von großem Vorteil.
Mit Nano Banana ist es beispielsweise problemlos möglich, erst separat Bilder eines Handys und eines Pferdes zu erzeugen und diese dann zu kombinieren. Der Prompt: Kombiniere die Bilder. Das Handy soll horizontal liegen und die Apps weiterhin zeigen. Das Pferd soll auf dem Handy galoppieren.
Es ist auch kinderleicht möglich, einen realitätsnahen Rennwagen in ein Rennen mitten in einer Fantasiewelt einzubauen. Der Prompt: Add the racing car as a race participant in the race. The racing car shall be of the same size as the other cars and clearly visible. There shall not be any crash or overlapping of the racing car and other cars.
Darüber hinaus wird die Geschwindigkeit und die
kostenlose Verfügbarkeit als großer Pluspunkt genannt. Nano Banana kann
Bilder und Bearbeitungen oft in wenigen Sekunden liefern und ist für Endnutzer
in Tools wie der Gemini-App kostenlos zugänglich.
Zusammenfassend lässt sich sagen, dass Nano Banana den Fokus von der reinen Bildgenerierung auf eine intuitive und leistungsstarke Bildbearbeitung im Dialog mit der KI verlagert. Die Kombination aus präziser, mehrstufiger Bearbeitung, Bildfusion, hoher Konsistenz und einfacher Bedienbarkeit macht es zu einem besonders vielseitigen Werkzeug, das sowohl für kreative Laien als auch für professionelle Anwender neue Möglichkeiten eröffnet.
Hier ist ein Video, das die Fähigkeiten von Nano Banana demonstriert: