Einen einfachen GPT-3 Text-Prompt in einer Benutzeroberfläche einzubauen oder eine API-Anfrage bei jedem Tastendruck zu starten, verlegt die Last der Problemlösung auf die Nutzer. Dies kann zu einer enormen kognitiven Belastung führen, die dann oft durch Versuch und Irrtum bewältigt werden muss. Problematisch wird es z.B. dann, wenn die Anwendung zu wenig auf die informelle Aufgabenerledigung ausgerichtet ist und deshalb der Nutzer sich mit dem LLM in einer endlosen Schleife bewegt. Das kann z.B. dann der Fall sein, wenn die Sprache in der hinterlegten Datenbasis stark von der der Nutzer abweicht, und Mensch und Maschine deswegen an einander vorbei reden – etwa wenn z.B. Gesetzestexte als Basis für Beratungsdialoge mit juristisch Unkundigen zum Einsatz kommen.
Um ein „LLM-in-the-Loop“ erfolgreich zu verhindern, muss die informelle Aufgabenerledigung der potenziellen Nutzer vorab möglichst genau verstanden werden. Basierend auf diesen Erkenntnissen kann dann entschieden werden, an welchen Stellen z.B. ein Text-Prompt-basierter Dialog bei der Aufgabenerledigung sinnvoll eingesetzt werden kann oder ggf. andere Interaktionsformen im User Interface implementiert werden sollten. Die Evaluierung der Anwendung mit echten Nutzern deckt dann auf, an welchen Stellen die Aufgabenerledigung nicht reibungslos verläuft und aus welchen Gründen. Versteht z.B. der juristisch unkundige Nutzer die auf auf Gesetzestexten basierenden Aussagen der Anwendung nicht, muss diese an das Verständnis der potenziellen Nutzer antrainiert werden, damit die Dialoge zwischen Mensch und Maschine im Human-Machine-Teaming spontan reibungslos funktionieren.