Kluczowe wyniki badań
Badacze z Microsoftu i Salesforce przetestowali 15 modeli LLM, symulując realne interakcje poprzez metodę „sharding” – dzielenie zadań na etapy, jak w typowej rozmowie. W trybie jednoturowym skuteczność sięgała około 90 procent, ale w wieloturowych spadała do 65 procent lub niżej, nawet po zaledwie dwóch turach. Analizowano ponad 200 tysięcy dialogów w sześciu zadaniach generatywnych, potwierdzając spadek u wszystkich testowanych systemów.
Przyczyny spadku jakości
Modele zbyt wcześnie wyciągają wnioski, opierając się na błędnych założeniach z początkowych odpowiedzi, i gubią informacje z środkowej części kontekstu. Zamiast elastycznie korygować kierunek, trzymają się pierwszego tropu, co prowadzi do kumulowania błędów i wzrostu czasu generowania odpowiedzi nawet o kilkaset procent. To wyjaśnia, dlaczego długie czaty stają się ryzykowne – AI „źle skręca” i nie wraca na właściwą ścieżkę.
Praktyczne wskazówki dla użytkowników
Zapewne coraz więcej z nas korzysta w różnych kontekstach z narzędzie określanych mianem sztucznej inteligencji. Mogą być one bardzo przydatne, ale jednocześnie mogą nas prowadzić na manowce. Powinno być czymś oczywistym by zawsze weryfikować efekty pracy sztucznej inteligencji.
Można też sformułować kilka dodatkowych zasad by uniknąć pułapek wynikających z niedoskonałości tzw. modeli językowych: formułuj pełne, precyzyjne zapytania jednym ciągiem, zamiast literować krok po kroku. W razie potrzeby resetuj kontekst lub dziel wątki na nowe sesje, co pozwala utrzymać wysoką dokładność nawet na poziomie blisko 90 procent skuteczności. Badania podkreślają: traktuj AI jak narzędzie do precyzyjnych promptów, a nie partnera do luźnych pogawędek.
W pogawędkach znacznie lepsi są... ludzie. Zresztą, może teraz jest właśnie dobry moment, by podnieść wzrok znad ekranu, rozejrzeć się i zapytać kogoś znajdującego się obok jak się ma. nawet po krótkiej rozmowie bezpośredniej dzień może być znacznie przyjemniejszy.










