English Abstract

The evolution of textual human-machine interfaces traces a path from command-line interfaces to AI-powered chatbots. While graphical user interfaces largely superseded the command line, AI language models are driving a renaissance of text-based interaction. This thesis examines historical patterns in interface development and identifies systematic constraints of contemporary AI interfaces. Based on these findings, an exploratory design framework is proposed that synthesizes textual input with context-aware visual elements. The “Machine Room” serves as a key architectural component, providing transparency into AI decision-making processes and enabling users to maintain meaningful control over automated operations.

Einleitung

Die Kommandozeile - ein schwarzer Bildschirm mit blinkendem Cursor über die man Befehle eintippen kann - prägte die frühe Ära der Mensch-Computer-Interaktion und definierte, wie Menschen mit Maschinen kommunizieren. Heute, Jahrzehnte nach der weitgehenden Ablösung durch grafische Benutzeroberflächen, erleben wir eine bemerkenswerte Renaissance textbasierter Interfaces durch KI-Chatbots wie ChatGPT. Diese neue Generation von Textschnittstellen weist Parallelen zur Kommandozeile auf, geht in ihren Fähigkeiten zur semantischen Interpretation jedoch weit darüber hinaus.

Im Zentrum steht die Frage: Werden textbasierte KI-Interfaces, ähnlich wie die Kommandozeile vor ihnen, durch rein grafische Systeme abgelöst, oder etablieren sie sich als eigenständiges Interaktionsparadigma aufgrund ihrer Fähigkeiten zur natürlichsprachlichen Kommunikation?

Der theoretische Teil gliedert sich in zwei Hauptaspekte: Zum einen wird die historische Entwicklung der Kommandozeile analysiert, um grundlegende Muster und Prinzipien textueller Interfaces zu verstehen. Zum anderen werden aktuelle KI-Interfaces und ihre spezifischen Limitationen untersucht. Aufbauend auf diesen komplementären Analysen entwickelt die Arbeit im praktischen Teil einen Interface-Entwurf, der innovative Lösungsansätze für die identifizierten Herausforderungen vorschlägt.

Der komplette Master als PDF

PDF

Der Prototyp eines Agentebasierten Betriebssystems

Entwurf der System Architektur

Die Desktop-Metapher, die seit den 1980er Jahren die Mensch-Computer-Interaktion dominiert, entspricht nicht mehr den Anforderungen moderner Computernutzung. Während traditionelle Betriebssysteme auf hierarchischen Dateisystemen und starren Navigationsstrukturen basieren, ermöglichen neue Technologien wie Large Language Models eine Arbeit und Kommunikation mit den Computer die womöglich menschlicher ist. Diese Arbeit schlägt ein neuartiges Betriebssystem-Interface vor, das den Computer nicht mehr als Sammlung isolierter Anwendungen begreift, sondern als kohärenten Interaktionsraum, in dem KI-Agenten als Vermittler zwischen Mensch und Maschine agieren.

Die Motivation für diesen radikalen Neuansatz ist vielschichtig: Aktuelle Systeme erfordern eine hohe kognitive Belastung durch manuelle Organisation, erschweren kontextübergreifendes Arbeiten und setzen technisches Verständnis voraus. Die zunehmende Nutzung von Suchfunktionen anstelle von Ordnerstrukturen, der Erfolg von Command Palettes und die wachsende Bedeutung kontextbasierter Interaktionen zeigen, dass traditionelle Organisationsformen den heutigen Arbeitsweisen nicht mehr optimal entsprechen. Die jüngsten Fortschritte in der KI-Technologie eröffnen nun die Möglichkeit, eine Revolution weg von der Desktop Metapher zu wagen.

Fundament

Bevor die konkreten Gestaltungsansätze vorgestellt werden, ist eine wichtige Vorbemerkung erforderlich: Der hier entwickelte Entwurf bewegt sich bewusst an der Grenze des derzeit technisch Realisierbaren. Einige der vorgeschlagenen Interaktionsformen ließen sich mit aktuellen LLMs und Systemarchitekturen noch nicht performant oder ressourceneffizient umsetzen.

Kernprinzipien

Artefakte als Grundbausteine des Systems

Anders als traditionelle Dateisysteme basiert dieser Entwurf auf einem Netzwerk von Artefakten - jegliche Form von Inhalt, sei es ein Dokument, eine E-Mail, ein Gesprächsverlauf oder eine Systementscheidung. Diese Herangehensweise baut auf den Ideen von Gelernter's Lifestreams und Obenauer's Überlegungen zu graphenbasierten System auf.

Transparente Entscheidungsprozesse

Der innovative Kern des Entwurfs liegt in der Visualisierung der System-Entscheidungsprozesse. Ähnlich einem Spielbrett werden die „Gedankengänge“ des Systems, Handlungsalternativen und Entscheidungskriterien transparent dargestellt.

Das System als proaktiver Partner

Das vorgeschlagene Betriebssystem überwindet die passive Rolle traditioneller (sowie LLM) Interfaces und agiert als proaktiver Partner. Es beobachtet Ereignisse wie eingehende E-Mails, Kalenderereignisse oder Systemzustände und entwickelt selbstständig Handlungsvorschläge.

Hybride Interaktion

Das Interface verbindet textbasierte Eingaben mit kontextsensitiven visuellen Elementen, die sich dynamisch an den Arbeitskontext anpassen. Der Nutzer soll öfter die Möglichkeit haben zwischen verschiedenen Ergebnissen wählen zu können was Compton „Mutant Shopping“ nennt.

Diese konzeptionellen Säulen werden in den folgenden Abschnitten detailliert erläutert, nachdem die grundlegende Systemarchitektur dargestellt wurde.

Systemarchitektur

Die Architektur des Systems lässt sich in mehrere Schlüsselkomponenten unterteilen, die den Ansatz von AIOS erweitern.

Multimodales Interface als Eintrittspunkt

An der Spitze steht das multimodale Interface, das als primäre Schnittstelle zwischen Nutzerenden und dem System fungiert. Es ermöglicht verschiedene Formen der Interaktion, von Texteingaben zu visuellen Steuerungselementen. Es ermöglicht Sicht, Suche und Bearbeitung aller Artefakte und Sessions.

Agent Router

Der Agent Router fungiert als intelligente Vermittlungsinstanz, die eingehende Anfragen analysiert und an die entsprechenden Komponenten weiterleitet. Diese zentrale Steuerungseinheit entscheidet, welche Tools und Agenten für eine bestimmte Aufgabe aktiviert werden.

Tools
Konkrete Funktionen wie Mail Programme und Browser, die sowohl der Nutzer als auch die Agenten nutzen können um über das Internet zu Kommunizieren, zu Recherchieren etc.

Agenten

Spezielle Operatoren für bestimmte Anwendungsfälle, die sich untereinander „Absprechen” können um Aufgaben zu bewältigen. Man kann diese Agenten auch als unterschiedliche Personas verstehen: „Der Web Surfer“ der , „Die Wissenschaftlerin“, die „Verhandlungskünstlerin“. Sozusagen ein Board an Beratenden und Ausführenden Agenten.

Knowledge

Der Wissensspeicher des Systems und die Grundlage der Personalisierung.

Organisations Prinzip

Während traditionelle Betriebssysteme auf einem hierarchischen Dateisystem basieren, organisiert unser Interface Informationen als Netzwerk von Artefakten - digitale Spuren menschlicher Interaktionen und Beziehungen. Diese Herangehensweise baut auf Gelernters Konzept der „Lifestreams“ (Gelernter) auf, geht aber über die rein zeitliche Organisation hinaus.

Artefakte

Artefakte sind mehr als nur Dateien - sie repräsentieren bedeutungsvolle Einheiten unserer digitalen Existenz. Eine E-Mail ist nicht nur eine Nachricht, sondern steht möglicherweise in Verbindung mit einem Kalendereintrag, einem Ticket oder anderen Menschen. Ein Kalendereintrag wiederum kann auf ein PDF mit der Agenda verweisen, Notizen enthalten oder mit einem Projektboard verknüpft sein. Diese Art der Organisation entspricht, wie Obenauer ausführt, eher den natürlichen Denkmustern der Nutzenden als rigide Ordnerstrukturen[@obenauerLN003Universal].

Das System versteht dabei die semantischen Beziehungen zwischen Artefakten. Wenn beispielsweise eine E-Mail über eine anstehende Stromablesung eingeht, erkennt es den Zusammenhang mit der Adresse, dem Energieversorger und eventuell vorhandenen früheren Ablesungen. Diese Verknüpfungen ermöglichen es dem System, kontextrelevante Vorschläge zu machen und Zusammenhänge aufzuzeigen. Obenauer sagt, dass diese Art der Verknüpfung bereits das World Wide Web revolutioniert hat – von linearen Dokumenten hin zu einem vernetzten Graphen von Informationen. Diese Transformation, die ihre Wurzeln in Ted Nelsons Hypertext-Vision von 1965 hat, steht für persönliche Datensysteme noch weitgehend aus.

Sessions als Interaktionskontext

Sessions bilden den aktiven Arbeitskontext, in dem Artefakte erstellt, verknüpft und bearbeitet werden. Eine Session entsteht durch verschiedene Auslöser - sei es eine Nutzeranfrage nach einem Kinoticket, eine eingehende Nachricht vom Stromableser oder eine Terminerinnerung. Wir können Sessions auch als direkte oder Indirekte Beauftragung von Agenten verstehen. Somit ist die Session auch der Ort in der verstanden werden kann wie die Maschine gehandelt hat und warum, dazu aber später mehr.

Die Transparenz der Systemaktionen ermöglicht es den Nutzenden, Entscheidungen nachzuvollziehen und bei Bedarf zu korrigieren. Erfolgreiche Arbeitsabläufe können als Muster erkannt und für ähnliche Situationen vorgeschlagen werden. Diese Organisation als verknüpfte Artefakte und kontextbezogene Sessions bildet die Grundlage für die intelligente Unterstützung durch das System. Das Promptfenster kann dadurch nicht nur auf einzelne Dateien, sondern auf ein reiches Netzwerk von Beziehungen und Kontexten zugreifen.

Offenheit als Grundprinzip

In der Gestaltung spezialisierter Benutzeroberflächen ist die Wahl der Interaktionselemente oft eindeutig: Ein Fotoverwaltungsprogramm profitiert von einer visuellen Rasteransicht, ein Musikplayer von einer Timeline, ein Texteditor von einer dokumentenorientierten Darstellung. Die jeweiligen Aufgaben und Nutzungskontexte definieren klar, welche Interfaceelemente optimal sind.

Die besondere Herausforderung bei der Gestaltung eines Betriebssystems liegt jedoch in seiner fundamentalen Offenheit: Es muss als Einstiegspunkt für nahezu beliebige Aufgaben dienen können.

Die Entscheidung für ein textbasiertes Interface als primären Interaktionspunkt ergibt sich aus dieser Problematik. Ähnlich wie bei Suchmaschinen ermöglicht die freie Texteingabe unbegrenzte Ausdrucksmöglichkeiten, Intentionen können direkt ausgedrückt werden.

Nutzende können ihre Intention in natürlicher Sprache formulieren, ohne sich an spezifische Befehle oder Syntax erinnern zu müssen. Diese Offenheit macht das Interface sowohl für Einsteiger:innen als auch für Expert:innen zugänglich.

Transparente Entscheidungsprozesse

Der innovative Kern des Entwurfs liegt in der Visualisierung der System-Entscheidungsprozesse. Ähnlich einem Spielbrett werden die “Gedankengänge” des Systems, Handlungsalternativen und Entscheidungskriterien transparent dargestellt.

Proaktive Agenten

Das vorgeschlagene Betriebssystem überwindet die passive Rolle traditioneller Interfaces und agiert als proaktiver Partner. Es beobachtet Ereignisse wie eingehende E-Mails, Kalenderereignisse oder Systemzustände und entwickelt selbstständig Handlungsvorschläge durch Agenten:
Spezielle Operatoren für bestimmte Anwendungsfälle, die sich untereinander „Absprechen” können um Aufgaben zu bewältigen. Man kann diese Agenten auch als unterschiedliche Personas verstehen: „Der Web Surfer“ der , „Die Wissenschaftlerin“, die „Verhandlungskünstlerin“. Sozusagen ein Board an Beratenden und Ausführenden Agenten.

Kontextsensitive Unterstützung

Die in der Analyse von ChatGPT identifizierte Problematik des Blank Canvas-Syndroms, also die Überforderung vor dem leeren Eingabefeld, wird in diesem Entwurf durch kontextuelle Personalisierung adressiert. Anders als generische KI-Chatbots, die oft standardisierte und für Erstnutzende optimierte Beispiele anzeigen, kann das vorgeschlagene System auf einen umfangreichen Knowledge-Graph zugreifen.

Der Vorteil liegt in der Integration auf Betriebssystemebene: Das System hat Zugang zu E-Mails, Kalendern und anderen persönlichen Daten der Nutzenden. Dies ermöglicht die Generierung kontextrelevanter und personalisierter Vorschläge, die nicht nur als Eingabehilfe dienen, sondern auch als situative Erinnerungen fungieren können Während der Eingabe analysiert das System den entstehenden Text und bietet passende Unterstützung an. Es vervollstandägt automatisch und natürlich eingebene Texte und bietet optionen an die sinnhaft passen könnten.

Das ist auch kleiner Schritt hin zu einem Interface das schon bei der Eingabe der Befehle vorhersehbarer wird anstatt auf das abschicken eine Nachricht zu warten. So könnte sich während der Eingabe der Anfrage schon herausstellen auf welche datenlage die Antworten der Maschine beruhen.

Progressive Enhancement

Das initiale Textfeld entwickelt sich je nach Kontext zu einer vielseitigeren Interaktionsfläche, ohne dabei die Einfachheit der Nutzung zu gefährden. Dies folgt grob dem Prinzip des „Progressive Enhancement“ aus der Webentwicklung, bei dem eine grundlegende Funktionalität stets erhalten bleibt, während zusätzliche Elemente situativ eingeblendet werden.

Visuelle Elemente erscheinen nur dann, wenn sie den Arbeitsfluss unterstützen, etwa wenn ein interaktiver Kalender Widget eingeblendet wird, sobald eine Terminverwaltung erkannt wird.

Die textuelle Eingabe bleibt trotzdem immer möglich, sodass Nutzende nicht auf grafische Bedienelemente angewiesen sind und damit falsche Gesprächsrichtungen „repariert“ werden können.

Komplexere Funktionen werden schrittweise eingeführt, beispielsweise indem erweiterte Filteroptionen erst sichtbar werden, sobald eine große Datenmenge durchsucht wird.

Multi Modalität

Multimodale Interaktion ist ein zentrales Thema in der Gestaltung moderner Interfaces. Auch wenn es im Rahmen dieser Arbeit nicht im Detail behandelt wird, wurde bei der Konzeption des Systems darauf geachtet, eine Erweiterbarkeit für verschiedene Eingabe- und Ausgabemodalitäten zu ermöglichen. So wäre beispielsweise eine Einbindung von Sprachsteuerung oder haptischen Interaktionsformen denkbar. Diese Aspekte werden jedoch nicht gesondert ausgeführt, da ihre Umsetzung und Analyse den Umfang dieser Arbeit übersteigen würden.

Weitere Screens

Fazit

Diese Arbeit analysierte die Evolution textueller Interfaces von der Kommandozeile bis zu KI-gestützten Systemen und entwickelte darauf aufbauend einen explorativen Entwurf für ein neuartiges Betriebssystem-Interface. Die theoretische Untersuchung zeigte, dass sich textbasierte KI-Interfaces als eigenständiges Interaktionsparadigma etablieren werden - nicht als Alternative zu grafischen Interfaces, sondern als integrative Schicht, die verschiedene Interaktionsformen intelligent verbindet. Diese Integration folgt dabei nicht dem Prinzip der bloßen Koexistenz, wie wir sie von klassischen Betriebssystemen kennen, sondern strebt eine kontextsensitive Verschmelzung an, bei der die Grenzen zwischen textueller und grafischer Interaktion bewusst verschwimmen.

Der daraus entwickelte Entwurf demonstriert, wie eine solche Synthese auf Systemebene aussehen könnte: Ein universelles Prompt-Interface als Eingangspunkt, das sich kontextuell um visuelle Elemente erweitert, während Sessions und ein Knowledge Graph die zugrundeliegende Struktur bilden. Die transparente Visualisierung von Systementscheidungen adressiert dabei das zentrale Problem der Nachvollziehbarkeit von KI-Handlungen und schafft einen „Maschinenraum“, in dem Nutzende die Möglichkeit haben, KI-Entscheidungen zu verstehen und bei Bedarf zu korrigieren.

Limitationen des Entwurfs

Der vorgestellte Entwurf fokussiert sich primär auf alltägliche Interaktionen wie E-Mail-Kommunikation, Terminverwaltung und Web-Navigation. Viele komplexe Anwendungsfälle bleiben dabei zwangsläufig unberücksichtigt. Besonders die Frage, wie kreative Arbeit in einem System ohne klassisches Dateisystem funktionieren kann, bedarf weiterer Untersuchung. Wie organisiert man Programmierprojekte, wenn der Code nicht mehr in Dateien, sondern in vernetzten Artefakten liegt? Wie gestaltet sich die Arbeit mit professioneller Grafik- oder Videosoftware? Diese Fragen zeigen die enorme Komplexität, die ein vollständiges Betriebssystem-Design mit sich bringt.

Interessanterweise nähert sich der Entwurf in seiner jetzigen Form stark einem Browser-ähnlichen System an. Dies wirft die Frage auf, ob die Zukunft des Computing tatsächlich in Richtung cloud-basierter Systeme geht, bei denen die Grenzen zwischen lokalem Betriebssystem und Web-Interface verschwimmen. Möglicherweise könnte das vorgeschlagene Interface auch als Layer über bestehende Systeme funktionieren, ähnlich wie moderne Browser bereits viele traditionelle Betriebssystem-Funktionen übernehmen.

Evaluation und nächste Schritte

Der hier vorgestellte Entwurf stellt einen Vertical Slice dar – einen durchdachten, aber begrenzten Einblick in die Möglichkeiten eines KI-gestützten Betriebssystems. Für die weitere Forschung ergeben sich mehrere vielversprechende Richtungen:

Die empirische Evaluation der vorgeschlagenen Interface-Konzepte, insbesondere hinsichtlich der Nutzerakzeptanz von proaktiven System-Vorschlägen
Die Untersuchung spezifischer Anwendungsfälle jenseits der Alltagsnutzung sowie Edge-Cases
Eine tiefere technische Exploration der Umsetzbarkeit und Skalierbarkeit
Die Entwicklung von Strategien zur Integration bestehender Anwendungen und Workflows, um einen schrittweisen Übergang zu ermöglichen

Incom ist die Kommunikations-Plattform der Fachhochschule Potsdam

Incom ist die Kommunikations-Plattform der Fachhochschule Potsdam mehr erfahren

Terminal Futures - von der Kommandozeile zum intelligenten Dialograum

English Abstract

Einleitung

Der komplette Master als PDF

Der Prototyp eines Agentebasierten Betriebssystems