AR-Sprachassistent für Studierende_XR Interaction-Design

(Das Foto im Cover wurde von KI generiert.)

Das ist eine Weiterentwicklung vom Projekt „Augmented Studium für ausländische Studierende“, insbesondere mit der Realisierung vom Konzept mit der AR-Technologie und im Rahmen vom Kurs „XR Interaction-Design“.

Kontext

Nach dem Bestehen des Sprachtests können Nicht-Muttersprachler:innen im Alltag dennoch Schwierigkeiten beim Verständnis und Ausdruck haben. Dies kann auf unbekannte Sprachkenntnisse, mangelnde Sprachpraxis, zu schnelles Sprechen anderer oder psychische Barrieren zurückzuführen sein. Ist es die einzige Lösung, einsam zu Hause zu lernen? Nein! Wir können auch im Alltag lernen und Sprachbarrieren überwinden!

Konkrete Gestaltung

Demonstration

Hier ist ein Video, das den aktuellen Stand des Produkts zeigt:

Ziele im Kurs

Da das Projekt im Rahmen eines Werkstatt-Kurses weiterentwickelt wurde, wollte ich nicht nur das Konzept mit der AR-Technologie umsetzen, sondern auch diese Technologie in Bezug auf Interaktionsformen, UI, psychologische Faktoren usw. gut verstehen.

Vorgehensweise

Entwicklungsplan

Nach dem vorherigen UX-Research habe ich einige Schemen nach unterschiedlichen Kategorien entwickelt, die die wichtigen Faktoren zum Einfluss auf Sprachbarrieren und die Zusammenhänge sowie die Prioritäten zeigen. Unten ist ein Schema vom Problemraum der Sprachkenntnisse – der mit einem roten Rahmen markierte Teil ist das zu behandelnde Erlebnis im Kurs:

Da das Konzept schon vorhanden war, habe ich direkt einen MVP-Plan darauf basierend erstellt und während der Umsetzung wegen des Zeitplans und nach dem Zweck des Tests flexibel modifiziert.

PDF

XR-Interaction-Design 71fcea7226e34b578c84e0025de38f65.pdf

Umsetzung

Am Anfang habe ich zuerst gelernt, wie man User Interface in Unity erstellen kann. Grundsätzlich gibt es zwei Formen – 2D und 3D, d.h. das UI steht immer vor den Augen an einer Stelle (wie auf einem Screen) und das UI steht im 3D-Raum. Dafür gibt es zwei Arbeitsweisen in Unity. Für die Erstellung von Assets habe ich auch Figma verwendet.

Ich hatte keine Ahnung, wie man Skripts in Unity schreibt. Deswegen habe ich immer meine Bedürfnisse zu KIs wie ChatGPT und Claude gestellt und die Codes sowie die Schritte, wie eine Funktion mit mehreren Komponenten aufgebaut wird, erhalten, wobei ich auch mit KIs über die Errors und mögliche Probleme und Strategien geredet habe.

Für die konkrete Gestaltungen des UIs habe ich die Kenntnisse von räumlicher Interaktion gelernt und mich von der UI-Gestaltungen von Apple Vision Pro inspirieren gelassen, dabei wurde das UI auch immer getestet, um zum Beispiel eine gute Sichtbarkeit, Arrangement der Informationen, Affordance usw. zu erreichen.

Einschränkungen

Da die AR-Brille Quest 2 oder 3 ein kleineres Sichtfeld als der Mensch und eine niedrigere Auflösung als Apple Vision Pro hat, war die Gestaltung der Informationsdarstellung eingeschränkt - in einem bestimmten Abstand können nur weniger Informationen angezeigt werden, die Schriftgröße muss relativ größer sein als in Vision Pro und die Farben müssen kontrastreich sein.
Bevor man in Figma Assets erstellt, muss man zuerst die Größen der Assets bestimmen, sonst kann man in Unity nicht ändern – Wenn man die Größe bzw. die Proportionen ändert, werden die Assets verzerrt. Deswegen sollte man lieber zuerst in Unity ein grundlegendes Interface (Wireframe) erstellen und testen, um das endgültige Layout und die Größen zu bestimmen, und dann in Figma die Assets erstellen.

Bewertung

Bildschirmfoto 2024-09-28 um 11.58.38 PM.png

Bildschirmfoto 2024-09-29 um 12.00.56 AM.png

Bildschirmfoto 2024-09-29 um 12.01.52 AM.png

Die aktuelle Version wurde von 10 Personen getestet. Im Allgemeinen wurden die meisten Probanden von den Interaktionen überrascht und fanden das Konzept sinnvoll. Aber inzwischen gab es auch viele Probleme wegen der Qualität der Interaktionen und Zweifel:

In einem Gespräch ist die Interaktion von Poke nicht effizient, da die Handlung nicht präzise und langsam ist, und viel Aufmerksamkeit erfordert.
Es ist auch schwer, über Ray-Casting mit einem Controller mit einem kleinen Button zu interagieren, da die Hand dabei zittert und sich der Zeiger bei der Bestätigung so stark bewegt.
Eine AR-Brille wie Quest von Meta ist zu schwer, um sie lange Zeit zu tragen und sich gleichzeitig zu bewegen.
Es sieht komisch aus, wenn man mit einer AR-Brille getragen mit anderen redet, da die anderen seinen Blick nicht sehen können. (Aber manche fanden auch, das das Tragen der AR-Brille auch ein Signal dafür ist, dass man Sprachbarrieren hat und hoffen, dass die Barrieren gut im Gespräch berücksichtigt werden.)
Ein Proband befürchtet, dass man zu sehr auf die Hilfe vom Sprachassistant angewiesen wären, so dass man die Sprache nicht gut lernen könnte.

Ich war sehr froh, dass viele Menschen mein Konzept wirklich ausprobieren konnten und die Anerkennung gaben. Es war auch sehr peinlich, wenn man zum Beispiel so eine sehr einfache Interaktion mit dem „Speak“ Button nicht machen konnte, um mit Ki zu sprechen. Und nachdem ich die Probleme der Interaktionen gelöst habe, war es auch so fantastisch, wenn man so flüßig alle Funktionen erreichen konnte – Zack, Zack, Zack und Oha-Effekt. Leider habe ich die Kernfunktion „STT (Speech-To-Text) in Echtzeit“ in dieser Zeit nicht geschafft. Das Konzept bzw. die Gestaltungen können erst dann wirklich validiert werden, wenn STT realisiert wird und so ein Kombination-Effekt funktioniert. Das ist Teil meiner zukünftigen Arbeiten.

Fazit

Es war sehr nervig, dass es so schwer war, eine nutzbare Interaktion in Unity umzusetzen, wobei es sich um richtige System-Packages, Programme und Komponente handelt. Unity ist gewissermaßen wie ein Command-Line Interface! Es hat sich auch oft wie in einem “Black Box” angefühlt… Es ist gut, dass Unity mit vielen API zusammenarbeiten kann und daher voller Möglichkeiten ist, allerdings ist derzeit sein Interface schwer zu nutzen. Aber von der Seite von Unity muss ich im Moment dann seine Phototyping-Logik besser verstehen. Es gibt noch einen Punkt zum Prototyping und zwar die Zusammenarbeit mit KI. In diesem Projekt habe ich immer mit KI gearbeitet, um das richtige Code zu bekommen. Das Problem damit ist, wenn man das Übersicht bzw. Grundwissen vom Code nicht hat, muss man immer auf KI angewiesen sein, wobei KI mit den aktuellen Fähigkeiten nicht immer richtige Antworten geben kann, deswegen kostet das manchmal viel Zeit. Ich finde, dass Designer:innen parametrisches Denken lernen müssen, um der KI einen guten Prompt geben zu können, und das Grundwissen über gängige Programmiersprachen, um das Übersicht zu behalten.

Vielen Dank an Yin. Du bist ein wahnsinnig super Tech-Geek, von dir wurde ich sehr gut zur XR-Welt eingeführt und habe viele Tricks und Unterstützungen erhalten.

Vielen Dank an Milan. Es war eine glückliche Begegnung und daher habe ich von dir dein Quest 3 ausgeliehen, das mein AR-Konzept wirklich ermöglicht hat.

Ein Projekt von

Guolong Wang

Fachgruppe

Werkstattpraxis

Art des Projekts

Studienarbeit im zweiten Studienabschnitt

Betreuer_in

Yin – W. Boribun

Zugehöriger Workspace

XR Interaction-Design

Entstehungszeitraum

Sommersemester 2024

Incom ist die Kommunikations-Plattform der Fachhochschule Potsdam

Incom ist die Kommunikations-Plattform der Fachhochschule Potsdam mehr erfahren