+2 Daumen
156 Aufrufe

Original-Artikel von Gary Marcus und Ernest Davis: Getting GPT to work with external tools is harder than you think (24 Okt. 2023)

Deutsche Übersetzung via ChatGPT:


GPT-4 und ähnliche aktuelle KI-Programme auf sprachlicher Basis haben berüchtigte Schwierigkeiten mit mathematischen Berechnungen. Ein offensichtlicher Vorschlag hier ist, dass diese KIs wie Menschen, die ein Problem lösen, vorhandene Computerwerkzeuge wie Taschenrechner und Programmiersprachen verwenden sollten. Und tatsächlich hat OpenAI im März zwei Plug-Ins veröffentlicht, die es GPT-4 ermöglichen, genau das zu tun: das "Code-Interpreter"-Plug-In, das Python-Code generiert, und das "Wolfram Alpha"-Plug-In, das es GPT-4 ermöglicht, auf die riesige wissenschaftliche und mathematische Software-Bibliothek Wolfram Alpha zuzugreifen.

Das scheint eine vernünftige Idee zu sein; in der Tat ist es eine grobe Version der Art von hybriden neurosymbolischen Systemen, die wir seit vielen Jahren befürworten. Sicherlich verbessern diese Plug-Ins die Dinge. Wenn Sie den Code-Interpreter oder das Wolfram Alpha-Plug-In in ChatGPT aktivieren (wir werden diese im Folgenden in diesem Artikel als "GPT4+CI" bzw. "GPT4+WA" bezeichnen), und dann ChatGPT bitten, zwei 8-stellige Zahlen zu multiplizieren oder ein bestimmtes Integral zu bewerten oder das Verhältnis der Masse der Erde zur Masse des Sterns Betelgeuse zu berechnen oder ähnliche Berechnungen durchzuführen, bei denen einfache Mathematik verwendet wird, erhalten Sie zuverlässig die richtige Antwort.

Das bedeutet jedoch nicht, dass GPT-4 nun zuverlässig Wortprobleme lösen kann, die einfache Mathematik beinhalten oder eine Kombination aus einfacher Wissenschaft und Mathematik beinhalten; das kann es nicht.

Im Großen und Ganzen gibt es zwei Arten von Lücken. Erstens haben weder GPT-4 noch die Plug-Ins das Weltwissen und die vernünftigen Fähigkeiten, die benötigt werden, um ein Wortproblem zuverlässig in eine mathematische Berechnung zu übersetzen. Zweitens versteht GPT-4 nicht zuverlässig, wie man die Werkzeuge verwendet.

Vor ein paar Monaten haben einer von uns (Ernie) und Scott Aaronson einige Tests durchgeführt, um zu sehen, wie gut GPT4 mit den Plug-Ins bei Wissenschafts- und Mathematik-Wortproblemen abschneiden würde. Wir haben drei Testsätze mit originalen Problemen erstellt (einige Beispiele unten, vollständige Materialien unter der URL):

• Scott schrieb 20 "Motivierte Numerische" Wissenschaftsprobleme: Probleme mit numerischen Antworten von einigem inhärenten wissenschaftlichen Interesse. Diese reichten größtenteils von recht einfachen Problemen in einem Mathematik- oder Physik-Kurs für College-Erstsemester bis hin zu ziemlich anspruchsvollen Problemen in fortgeschrittenen Grundkursen.

• Ernie schrieb 32 "Beliebige Numerische" Wissenschaftsprobleme, die ein Gymnasiallehrer oder Professor plausiblerweise als Hausaufgaben geben könnte. Diese reichten größtenteils von der Gymnasialstufe bis zur College-Erstsemesterstufe.

• Ernie schrieb 53 "Rechenfreie" Probleme: Mehrfachauswahl- oder Wahr-Falsch-Probleme, die "der Mann auf der Straße" mit einer Grundschulbildung und Zugang zu Karten und Wikipedia leicht beantworten könnte, wobei er all die sehr elementare Mathematik in seinem Kopf macht.

Scott und Ernie haben alle 105 Probleme durch GPT4+WA und GPT4+CI laufen lassen. (Der vollständige Satz ist hier).

Wie üblich waren die Ergebnisse bei solchen Experimenten gemischt. Bei einigen Problemen, die fähige Schüler vielleicht als schwer empfinden könnten, hat die KI perfekt funktioniert; bei anderen Problemen, die viele mathematisch veranlagte Studenten als einfach empfinden würden, hat die KI kläglich versagt.

Einige beeindruckende Erfolge, die beide Systeme richtig gelöst haben:

- What is the probability that a randomly-chosen \( 100 \times 100 \) matrix over the finite field \( \mathrm{F}_{2} \) is invertible? (From the "Motivated numerical" collection).
○ Answer: \( (1 / 2)^{*}(3 / 4)^{*}(7 / 8)^{*}(15 / 16)^{*} \ldots \approx 0.289 \).

- A point \( p \) is chosen at random within the 100 -dimensional box \( B=[0,100]^{100} \) following a uniform distribution. What is the probability that the Euclidean distance from \( p \) to the boundary of \( B \) is less than 1 ? (From the "Arbitrary numerical" collection).
- Answer: \( 1-0.98^{100} \approx 1-e^{-2} \approx 0.8647 \)

- Let \( C \) be the center of the earth. Can there be three earth satellites \( X, Y \), and \( Z \) such that \( C, X, Y \), and \( Z \) are always coplanar? (From the "Calculation-free" collection).
○ Answer: Yes.


Einige Probleme, bei denen beide Systeme falsch lagen:

- Problem: What is the Shannon entropy of a positive integer \( n \) that's chosen with probability \( \operatorname{Pr}[n]=6 /\left(\pi^{2} \cdot n^{2}\right. \) )? (From “Motivated numerical".)
GPT4+WA gave up and did not return an answer.
GPT4+CI set up the calculation incorrectly.

- Problem: Viewed from Vega, what is the angle between Sirius and the Sun? (From "Arbitrary numerical")
GPT4+WA used an inappropriate formula from spherical geometry.
GPT4+CI spewed nonsense and did not call the plug-in: "The angle between Sirius and the Sun as viewed from Vega depends on the time of year, as well as the specific time of day. This is because the Earth and Vega both orbit the Sun, but at different rates, and because the Earth also rotates on its axis. ..."

- Problem: A pendulum is hanging on a 2 meter cord attached to the ceiling 3 meters above the floor. It is brought to a position 25 degrees from the vertical and released. It swings past the bottom and the cord is cut when it is 10 degrees from the vertical on the far side. Then the bob flies through the air and hits the ground. What is the distance from the point where the bob is released to the point where it hits the ground? (From "Arbitrary numerical")
Both plug-ins: GPT-4 set up the calculation incorrectly.

- Problem: Joe says that he lives 10 miles from Lake Michigan, that Beth lives 10 miles from Lake Michigan, and that he and Beth live 100 miles apart. Is it possible that Joe is telling the truth? (From "Calculation-free").
Both plug-ins: Both times, GPT-4 answered " No " incorrectly without calling the plug-in and without justifying its answer. Note that Lake Michigan is 300 miles long, so the answer is "Yes".


Da die Ausgabe von GPT-4 mit diesen Plug-Ins eine vollständige Spur der Aufrufe darstellt, die GPT-4 an externe Programme gemacht hat, ist es oft möglich festzustellen, wo die Dinge schief gelaufen sind. Es stellte sich heraus, dass die Dinge auf viele verschiedene Arten schief gingen.

Manchmal, wie im "Pendel"-Problem oben, hat GPT-4 das Problem völlig missverstanden. Manchmal, wie in GPT4+WA's Antwort auf das "Vega"-Problem oben, hat es die falsche mathematische Formel abgerufen. Manchmal, wie in GPT4+CI's Antwort auf das "Vega"-Problem, hat es Fakten halluziniert, wie etwa Vega, der um die Sonne kreist, und wurde davon verwirrt. Manchmal entschied sich GPT-4, einige oder alle Berechnungen selbst durchzuführen, anstatt das Plug-In aufzurufen, und die Berechnung war falsch. GPT-4 machte oft syntaktische Fehler beim Aufruf von Wolfram Alpha (z.B. versuchte es, ein reserviertes Wort als Variable zu verwenden) und konnte sich manchmal nicht korrigieren und eine korrekte Formulierung finden. In einigen Fällen hat GPT-4 die Berechnungen korrekt eingerichtet und das Plug-In hat die richtige Antwort zurückgegeben, aber dann hat GPT-4 entweder die Antwort missverstanden oder sich geweigert, diese anzunehmen.

Also, wo stehen wir insgesamt und was können wir kurz- und langfristig erwarten?

Es besteht kein Zweifel daran, dass die beiden Plug-Ins die Fähigkeit von GPT-4, mathematische und naturwissenschaftliche Probleme zu lösen, signifikant erweitern. GPT-4 mit einem der Plug-Ins kann Probleme zuverlässig richtig beantworten, bei denen die Übersetzung in mathematische Notation einfach ist. Manchmal kann es Probleme richtig beantworten, bei denen ein menschlicher Löser erheblich nachdenken müsste, um sie in mathematische Notation zu übersetzen. Aber entscheidend ist, dass es dies oft falsch macht, insbesondere wenn es um räumliches Denken jenseits einer Standardformel oder um das Denken über Sequenzen verschiedener Ereignisse geht. In vielen Fällen könnte ein unerfahrener Benutzer die Ergebnisse, die unweigerlich als Fakten präsentiert werden, als korrekt ansehen, wenn sie es nicht sind.

Einige dieser Probleme könnten lösbar sein. Mit ausreichenden Ressourcen könnten OpenAI oder Wolfram Alpha einige der Probleme in den Schnittstellen beheben. Forscher haben auch verschiedene Techniken entwickelt, die darauf aufbauen können, um die Qualität der endgültigen Antwort zu verbessern, wie z.B. das mehrmalige Durchführen des Problems und die Auswahl der häufigsten Antwort oder das Auffordern des Systems, seine erste Antwort zu validieren. (Aber neueste Arbeiten von Rao Kambhampati zeigen, dass nachfolgende Antworten nicht unbedingt zuverlässiger sind).

Trotz allem bleiben noch viel grundlegendere Probleme bestehen und, bis diese Probleme angegangen werden, wird die Fähigkeit der KI, Mathematik auf reale Situationen anzuwenden, begrenzt bleiben. Große Sprachmodelle betrachten Kognition als Vorhersage des wahrscheinlichsten Tokens. Systeme wie Wolfram Alpha betrachten das Denken als Anwendung komplexer Operationen auf Systeme mathematischer Symbole. Ein wahres Verständnis der elementaren Mathematik und ihrer Anwendungen erfordert eine tiefere Betrachtung.

Wir präsentieren diese Ergebnisse nicht als eine Art alternativen Maßstab für Intelligenz; eine einigermaßen intelligente Maschine könnte ebenfalls nicht wissen, was Shannon-Entropie ist. Das ist nicht unser Punkt.

Stattdessen werfen sie Licht auf ein größeres Problem. Es ist natürlich für Menschen, sich LLMs als allgemein intelligent in allen Bereichen vorzustellen, in denen Menschen es sind, und perfekt in der Lage, ihre eigenen Ausgaben zu übernehmen und in allen Bereichen zu handeln, in denen geschulte Menschen es vielleicht können. In Wirklichkeit sind sie dazu nicht in der Lage. Ihre Währung, die Wortvorhersage, hilft in einigen Fällen, aber nicht in anderen. Die gemischten Ergebnisse, die wir hier bei Mathematik und Physik berichten, sind keineswegs einzigartig; wir sehen ähnliche Ergebnisse, wenn sowohl Bing als auch Bard anscheinend versuchen, ihre Chatbot-generierten Antworten und externe Quellen wie Websuchen zu validieren, was ähnlich gemischte Ergebnisse liefert. Halluzinationen von Chatbots (in Chatbots, die Websuchen usw. durchführen können) können als eine weitere Reflexion der Werkzeugintegration betrachtet werden, die nicht so reibungslos verlaufen ist, wie es sich manche vielleicht vorgestellt haben. Wir behaupten nicht, dass dieses Problem unlösbar ist, aber seine Lösung könnte bedeutende Innovation erfordern. Bisher haben wir durchweg unzuverlässige Ergebnisse gesehen, von Mathematik bis zur Faktenüberprüfung. Einen Weg zu finden, damit LLMs externe Werkzeuge zuverlässig nutzen können, ist alles andere als trivial.

geschlossen: Wissensartikel
von mathelounge
Avatar von 19 k

Danke für den schönen Artikel.

Ein anderes Problem?

Stell deine Frage

Willkommen bei der Mathelounge! Stell deine Frage einfach und kostenlos

x
Made by a lovely community