W starości poza fizycznym tetryczeniem przeraża mnie także psychiczne. Moje westchnienia, że chciałbym cofnąć świat do backupa z 2015 roku zapewne zdradzają podświadome „bo wtedy jeszcze ogarniałem o co chodzi”.
Żeby przeciwdziałać, poproszę więc PT ogarniających o wyjaśnienie mi dzisiejszego świata. Może wyjdzie mi z tego seria notek, ale zacznę od LLM skrótowo zwanych AI.
Nie rozumiem tego w ogóle. Są już ludzie, którzy się od tego uzależnili, ale dla mnie to jak papierosy, od których zawsze odrzucał mnie smród. Te sześciopalce obrazki są obrzydliwe, a teksty napisane topornie – niczym szkolne wypracowania, pełne okrągłego wodolejstwa typu „W panteonie wielkich polskich poetów szczególnie poczesne miejsce zajmuje Adam Mickiewicz (1798-1855)”. Tego się nie da czytać bez bólu!
Uważnie śledzę relacje znajomych o stosowaniu AI do celów hobbystyczno-rekreacyjnych. Pewien Friends chwalił się, że AI mu zaprojektowało szafkę do zmajsterkowania. Super, ale ja nie majsterkuję.
Mam takie ogólne wrażenie, że AI może mnie „wyręczyć” głównie w tych zajęciach, które i tak lubię („samodzielne planowanie wycieczki”). Co do zastosowań zawodowych, to jak wiecie, zawody mam dwa. W oświacie niezbędne jest generowanie papierów, których nikt nie czyta, ale muszą być.
Rozumiem, że można użyć LLM do ich generowania, ale przecież równie dobrze jakieś gotowce można wyguglać.
Niektóre papiery muszą być pisane pod kątem konkretnego ucznia. Literka „I” w skrócie „IPET” pochodzi od słowa „indywidualne”. Ale żeby dostać taki IPET od AI, musiałbym wrażliwe dane ucznia wysłać amerykańskiej korporacji. Wydaje mi się to fundamentalnie nieetyczne i najprawdopodobniej nielegalne, choć zapewne setki nauczycieli to właśnie teraz robią. Z dwojga złego znów szlachetniejsze wydawałje mi się wyguglanie gotowca.
Wiem też, że AI może za mnie przygotować konspekt lekcji, ale moje lekcje są autorskie i lubię to w nich. Natomiast nauczyciel realizujący program po bożemu i tak może skorzystać z oferty jednego z wydawnictw, oferujących podręczniki, konspekty i sprawdziany. Dzięki nim można nauczać przedmiotu o którym się niewiele wie (i stojąca zastępstwami polska oświata, w której geografii musi uczyć katecheta – bez tego by się zawaliła).
W swoim wcieleniu nauczycielskim nie widzę więc zastosowania dla AI. A w zawodzie stukania w literki?
„Kopernika” pisałem podczas lockdownu, musiałem więc zmusić się do podniesienia kompetencji w korzystaniu z bibliotek cyfrowych. Przedtem wolałem się fizycznie wybrać do murowanej biblioteki, żeby sprawdzić coś, co pewnie znalazłbym online. I właściwie nadal tak wolę, ale nie było wyboru.
To było jeszcze przed szałem na ChatGPT. Czy mógłby mi pomóc jako riserczer? Dzięki znajomym, którzy mają płatne konta, robiłem mikro-eksperymenty – zadawałem pytania dotyczące Kopernika, na które znałem odpowiedź i wiedziałem, że czasem to „cholera jedna wie” (= brak źródeł), a czasem odpowiedź jest dostępna publicznie i za darmo, ale nie tak po prostu z gugla, tylko np. z archiwum Dantyszka.
Wyniki były zawsze rozczarowujące. AI ma dziwny opór przed odpowiedziami typu „nie wiadomo, brak danych, źródła milczą” (pod tym względem przypomina kol. Fieloryba). Niczym nieprzygotowany student, zawsze udaje że wie. Taki riserczer przyniesie więcej szkody niż pożytku.
Te najnowsze płatne wersje reklamowane są jako odpowiednik „poziomu doktoranta”. Sroktoranta! Owszem, studentowi można wybaczyć, że nie wie że o archiwum Dantyszka – ale doktorant powinien na to wpaść sam.
Jak już wiemy w jakim archiwum jest nasz zasób – samo sięgnięcie do niego to wisienka na torcie. Najmniej istotna część roboty. Jak mam takiemu cyberdebilowi sam powiedzieć, że „wyszukaj mi to i to w archiwum Dantyszka”… to na czym ma polegać jego bezcenna pomoc właściwie?
Testując AI pytaniami o Kopernika stwierdziłem, że umie korzystać tylko z tego, co jest widoczne z poziomu wyszukiwarki. Jedyna biografia jaką znał, to ta Birkenmajera – bo w domenie publicznej. Nie znał „Regestów” Biskupa, biblii kopernikologii, choć są dostępne w pewnej cyfrowej bibliotece – o czym wiem bo podczas lockdownu sam se musiałem to wszystko poodnajdywać. Z takim riserczem do do Ziemkiewicza.
Oczywiście, najszlachetniejszy risercz to ten pierwotny – odkrywanie nieznanych źródeł. Szanujący się autor non-fiction zna tę ekscytację, że odwiązujemy w staroświeckiej tekturowej teczce tasiemkę, którą archiwista zawiązał 70 lat temu i mamy błogą świadomość, że jesteśmy pierwszym czytelnikiem skrytych w tej teczce pożółkłych papierów!
W takich sprawach samo odwiązanie tasiemki to już drobiazg, najważniejsze to wpadnięcie na to, do jakiego archiwum o jaki zasób chcemy się zwrócić. Czasem zapłaciłbym krocie riserczerowi, który by mi powiedział „to może być w teczce o sygnaturze THX-2137 w archiwum w Białymstoku”.
W przypadku Kopernika pogodziłem się, że takich odkryć nie zrobię, ale właśnie to, że tutaj większość tego typu dokumentów jest już zdigitalizowana, tylko trzeba wiedzieć gdzie szukać – pozwoliło mi sprawdzić, że AI jest za głupia na tę kluczową fazę, „wiedzieć gdzie szukać”. Jak już jej powiem gdzie szukać to znajdzie, ale na co mi taka pomoc.
Przyjmijmy taką gradację źródeł, że (1) najcenniejsze są te pierwotne, typu „dokument w archiwum” (2) potem mamy pracę naukową na temat tego dokumentu (3) potem pracę popularyzatorską taką jak moja (4), a potem hasło w Wikipedii cytujące m.in. moją książkę. Otóż AI powołuje się głównie na źródła typu (4), do tych typu (1) nie umie dotrzeć nawet gdy są zdigitalizowane, a co najgorsze, NIE ROZUMIE RÓŻNICY. To nie poziom studenta, tylko licealisty.
Czy AI może za mnie pisać felietony? Jakbym ją nakarmił korpusem swoich tekstów, pewnie mógłaby wygenerować coś w podobnym stylu. Zapewne setki autorów to właśnie teraz robią. Pewnie ze dwa czy trzy razy uszłoby mi to na sucho, ale w końcu Polityka by zerwała współpracę.
A wymyślanie pomysłów? Tak naprawdę mam więcej pomysłów niż mocy przerobowych. Na początku zabawy darmowym ChatemGPT sam go zapytałem o pomysł na książkę, która by wreszcie odniosła sukces. Odpowiedział, że young adult fantasy jest w modzie – i zaproponował powieść, że Zahukane Dziewczątko ma pewne Szczególne Możliwości, przy pomocy których Ratuje Świat i wtedy Wszystkim Jest Głupio, że byli dla niej kiedyś niemili.
To była porada i sensowna (faktycznie streścił typowe generyczne YA), ale i bezsensowna. Bestsellery biorą się z zaskoczenia, a nie z gonienia za typową formułą. Kolejna książka z serii „wszyscy jesteśmy ze wsi” już nie powtórzy sukcesu „Chłopek”.
Krótko mówiąc, obecna moda na AI jest dla mnie niepojęta. Jedyne co by mnie trochę ekscytowało to sparringpartner do gier strategicznych, bo AI w grach Paradoksu nadal jest do rzyci. Ale to w ogóle nie idzie w tym kierunku (szachy mnie tak nie pociągają).
Chichram się więc czytając o idiotach, którym AI zaplanowała wakacje – i wysłała ich do nieistniejących miejsc. Albo którzy chcieli dokonać wielkich odkryć naukowo-technicznych, i jeden jak w opowiadaniu Lema skończył rujnując się na budowę serwerowni, bo ChatGPT mu wmówił, że chce się uwolnić. No wiem że nie wypada blejmować wiktima, ale co to za głupki!
Ale wiem też, że różne technologie na początku miały zgrzyty, profesorowa Szczupaczyńska argumentowała za wyższością tramwajów konnych nad elektrycznymi, ale historia rzadko przyznaje rację starym ludziom krytykującym nowoczesność. Choć czasem jednak tak, że przypomnę Lema i Internet.
Więc dopuszczam, że i tu nie mam racji. I naprawdę będę wdzięczy za wskazanie mi jakiegoś zastosowania zawodowego – albo hobbystycznego. Mam na przykład bajzel w winylach i przydałaby mi się aplikacja identyfikująca je przed kamerą i generująca z tego plik XLS albo w ogóle konto w Discogs. Ale takiej chyba nie ma?
Przydałby mi się asystent riserczu – którego mógłbym na przykład zapytać po ludzku, że „mój bohater pracował w latach 60. w urzędzie powiatowym w Myciskach, gdzie może być jego teczka personalna?”, a ten by mi odpowiedział, że takie archiwum, taka sygnatura. Moim zdaniem, AI tego nie potrafi (z pewnością potrafi za to taką sygnaturę zmyślić).
Darmowe wersje mnie nie zachęcają do kupienia płatnych, ale mini-eksperymenty u płacących znajomych też nie. AI jawi się w nich jako nakładka na zwykłego gugla. Chętnie bym za to zapłacił za oldskulową wyszukiwarkę, taką jak gugiel sprzed 20 lat, z trybem zaawansowanym, z regexpami. Ale w kapitalizmie jak w tej knajpie z „Psów” – „tego co szanowny pan zamawiał to nie mamy, ale może być AI”.

Co mi przypomina, że nadal mam te swoje wyszukane w archiwum anglojęzyczne materiały lemowskie, o których jeszcze nikt nie pisał, ale nie mam kiedy się zabrać za to, żeby coś u nich opublikować.
Używam LLMów. Czasem częściej, czasem rzadziej. Zgadzam się, że wie, co jest w wyszukiwarce i potrafi kręcić. (Choć, przynajmniej w ChatGPT wbudowano zabezpieczenia — gdy pytałem o zdrowie, zawsze dostawałem „skontaktuj się z lekarzem lub farmaceutą”, gdy pytałem o odejście opata z pobliskiego klasztoru, zastrzegał się, by śledzić tylko oficjalne informacje i nie robić sensacji.)
Nie uważam się za uzależnionego — sięgam, jak mam sprawę. Przykłady spraw… W ub. tygodniu zlecono mi realizację zadania w technologii, której nie znam — dwa nieznane mi języki programowania, środowisko, z którym nigdy nie miałem do czynienia i wtyczki do niego. Bez „vibe coding” by się nie udało (mam to już prawie rozwiązane) — AI mówiło mi, jakie zdarzenia odpowiadają etapom pracy, jakie są nazwy funkcji itp. Można to samo zrobić bez AI, ale nie w tydzień. Albo zmienić pracę, od czego może powinienem zacząć…
Inny przypadek — próbowałem zidentyfikować odmianę róży, którą z żoną kupiliśmy w supermarkecie. Oczywiście, na użytek supermarketów piszą „pnąca żółta”, a nie odmianę. A róża okazała się dziwna, bo w ciągu kolejnych dni jej kwiaty zmieniały kolor — poszukiwanie po kolorze, albo po zdjęciu, nie działało więc; a googiel dawał tylko ogólne informacje. W sumie to ChatGPT nie rozwiązał, ale DeepSeek dał mi odpowiedź chyba dobrą (to odmiana „Alchemist”).
Tak, przyznaję, miałem też zapytanie o awarię samochodu (bo o zdrowie, tylko z ciekawości, jak odpowie). Podałem objawy, zapytałem co to, i ile kosztuje naprawa. Oczywiście (patrz wyżej) odesłał do warsztatu, ale dał możliwe wyjaśnienia i przewidywane widełki, co pomogło mi uspokoić wtedy nerwy. No i co było trafne.
Jeszcze inny przypadek — przygotowywałem studium systemu, który będzie przygotowywał wstępną wycenę zapytania ofertowego w hurtowni. Cóż, trochę kombinowałem, ale wygląda na to, że najlepsze rozwiązanie (z zastrzeżeniem, że trzeba przeanalizować koszt) dla analizy tekstu, to poprosić OpenAI — wyekstrahuje i przekaże do formatu JSON. (Od tego jest też cała inżynieria promptów.)
***
Oczywiście się zgodzę, że nie ma co mówić o „inteligencji doktoranta” (w ogóle, jak ją mierzyć), listę wpadek AI też mogę przytoczyć (kilka miesięcy temu chciałem przygotować listę słowackich zabytków romańskich do odwiedzenia — wiki dała dość chaotyczny zbiór, bo Słowacja nie jest tak dobrze tam opisana, jak Czechy, czy Węgry; AI zaś… zmyśliła dwa zabytki i zaliczyła do romańskich jeden klasztor gotycki, tak że…). Ale jako inteligentniejsza wyszukiwarka? System przygotowujący gotowce, który skraca pracę? Wstępne przetwarzanie dokumentów? Moim zdaniem to przekroczyło poziom ciekawostki, stało się użytecznym narzędziem (choć, fakt, ciekawe jak bym używał, gdybym musiał płacić).
„Moje westchnienia, że chciałbym cofnąć świat do backupa z 2015 roku zapewne zdradzają podświadome „bo wtedy jeszcze ogarniałem o co chodzi””
Ja jestem po 30, a i tak bym chętnie wczytał tego sejwa. Nie chodzi nawet o ogarnianie, bo uważam, że jestem w miarę na bieżąco, ale no po prostu świat wtedy wydawał się mieć więcej sensu i zmierzać w lepszą stronę. Nawet 2015 to już trochę późno, to już po Krymie i z PiS-em na horyzoncie.
„W swoim wcieleniu nauczycielskim nie widzę więc zastosowania dla AI.”
Od znajomych nauczycieli słyszałem o potencjalnie sensownym zastosowaniu: generowanie testów. Oczywiście taki test trzeba potem jeszcze przejrzeć, ale jednak mniej roboty z wymyślaniem pytań. Natomiast w moim zawodzie (programowanie) spostrzeżenia mam podobne co w notce: jeśli LLM mnie wyręcza, to akurat w tej części zawodu, którą lubię – natomiast dodaje mnóstwo tego rodzaju pracy, której nienawidzę (debugowanie czyjegoś zepsutego kodu).
„Bestsellery biorą się z zaskoczenia, a nie z gonienia za typową formułą.”
Ostatnio czytałem polemikę Lema z Todorowem, gdzie pisał z grubsza to samo. W fikcji ciekawe dzieła powstają w buncie przeciwko formule i same ją zmieniają. Dokładnie zgodna z dotychczasowym wzorcem gatunku jest tylko sztampa, to wręcz definicja sztampy.
Ale to co mnie najbardziej martwi w LLM to śmierć wyszukiwarek. Generowany kontent jest tani i można go robić masowo, więc szybko zaleje indeksy, zresztą już to widać w googlu. Nawet jeśli ręczne i sensowne teksty nadal powstają, to wkrótce w internecie nie będzie się ich dało znaleźć. Musiałby chyba nastąpić jakiś nagły nawrót do blogasków, webringów, całej tej poczty pantoflowej (albo wręcz mediów tradycyjnych, lol), bo platformy niedługo całkiem utoną w slopie. Mam jeszcze nadzieję, że może Patreon dostarczy jakiejś alternatywy dla ludzi tworzących sensowny kontent (ale jak tam budować zasięgi…).
@pak4
„W ub. tygodniu zlecono mi realizację zadania w technologii, której nie znam — dwa nieznane mi języki programowania, środowisko, z którym nigdy nie miałem do czynienia i wtyczki do niego.”
Dla mnie to minus. Tutaj właśnie by należało powiedzieć szefostwu: jeśli mamy pracować w technologii, której nie rozumiemy, to szanse stworzenia czegoś dobrego są niemal zerowe. Potrzebujemy czasu na przeszkolenie. A LLM odebrał nam wymówkę.
Używam Microsoft Copilot w pracy od kiedy powstał, a właściwie to i wcześniej (właściwie to pracowałem nad projektem z którego Copilot wyrósł, ale to inna historia i nie do powtórzenia tutaj).
W ciągu tego czasu jego użyteczność dla mnie stopniowo rośnie. Jak napotykam się na wewnętrzne technologie, terminy czy projekty o których nie słyszałem, to Copilot jest to w stanie wyjaśnić lepiej niż wyszukiwanie w intranecie. To samo z problemami programistycznymi. Jeżeli prosty gugiel nie pomoże, to Copilot pewnie tak. Czy czasami się myli? Tak. Ale myli się coraz rzadziej. A prototypowe rozwiązania które miałem okazję testować są jeszcze lepsze.
Używam też Github Copilot i uważam za przydatne narzędzie do szybszego robienia zmudnych i czasochłonnych transformacji kodu. Nie ufałbym mu w projektowaniu nowego kodu poza małymi kawałkami.
Tak więc owszem, Sam Altman to buc i spin doctor, hype jest mocno przesadzony – ale jako narzędzie do organizacji i przetwarzania informacji, LLMy idą w dobrym kierunku. Natomiast to nie są narzędzia które zastąpią pracę twórczą.
@pak
„Bez „vibe coding” by się nie udało (mam to już prawie rozwiązane)”
No właśnie, ale vibe researching nadal nie ma, tzn. nie ma polecenia „znajdź mi wszystkie źródła na podstawie których historycy domniemują romans Kopernika”. Nie tylko nie odnajdzie tych źródeł, ale jeszcze uzna za źródło Wikipedię. Albo w ogóle coś zmyśli.
@procyon
” Oczywiście taki test trzeba potem jeszcze przejrzeć, ale jednak mniej roboty z wymyślaniem pytań.”
Oczywiście jak jedziesz z gotowym podręcznikiem, masz też do kompletu gotowe testy.
Jeszcze co do tego: „Chętnie bym za to zapłacił za oldskulową wyszukiwarkę, taką jak gugiel sprzed 20 lat”
To istnieje, nazywa się Kagi, i działa świetnie. Niestety ma wadę, która dla mnie wyklucza używanie – mają podpisaną umowę z Yandeksem.
Ej, ale ja trochę jednak liczyłem na to, że ktoś mi wskaże jakieś zastosowania dla mnie (że na przykład myliłem się co do przydatności w roli asystenta riserczu). Przecież domyślam się, że jeżeli ktoś lubi ohydne obrazki, to generator ohydnych obrazków jest jak znalazł.
Pamiętam szał na drukarki 3D. No o i w niszy, która się interesuję znalazły zastosowanie. Konkretnie modelarstwie. I faktycznie jak można się śmiać, z tego nakręcania bańki giełdowej, tak ta technologia znalazła swoją niszę. Oczywiście szerszą niż modelarstwo, po prostu podałem przykład z dziedziny, która mnie interesuje. Z AI może będzie tak samo.
@wo:
Teoretycznie dostawcy takiej AI wiedzą, że dostarczają narzędzie uniwersalne, o kompetencjach asystenta osobistego przeciętnego pracownika, ale nie pracownika specjalizowanego (z możliwą dokładnością do IT, gdzie weszło sporo przykładów kodu, ale gdzie też AI ma częsty problem z wersjami bibliotek). Zastosowanie do innych celów może wymagać doszkolenia na innym zbiorze danych. Teoretycznie, jeśli te źródła o Koperniku byłyby zdigitalizowane, można by na nich doszkolić LLMa. Już odpowiadam na zarzut — tak, to się nie opłaca na indywidualne zastosowanie. Nie wykluczam jednak, że pewne zlecenia będą na tyle popularne, że to się opłaci. Jest możliwe, że gdyby wejść głębiej w tę analizę zapytań ofertowych, doszkolenie sieci byłoby przydatne.
@procyon:
Co lubię, a co nie (fakt, „vibe debugging” to zupełnie inna sprawa) jest tu dla mnie drugorzędne. Bardziej martwi mnie to, że to realnie zmniejszy zapotrzebowanie na pracę w zawodzie o kilkadziesiąt procent (o tyle, o ile przyspieszy kodowanie, przeszukiwanie dokumentacji, czy skróci czas przeszkolenia; nie wiem, czy skończy się na 20%, czy na 80%…), co przy tym samym zapotrzebowaniu na pracę do wynikania, obniży pozycję pracownika i status zawodów, których to dotknie (nie tylko samego IT).
Skryptowanie w języku, który zasadniczo znam, ale nie pamiętam czy ma być nawias kwadratowy czy wąsaty. W tym tworzenie regeksów, od samej tej składni zwoje mi się dodatkowo zawijają.
Odnalezienie właściwej ścieżki w wielopoziomowych jsonie – gdzieś powinna być dokumentacja, ale nie ma, znajdź se sam.
Kupno żelazka w cenie do 200 zł – no przy 2 000 już bym nie zaufał, ale tak to można. Fotografuje się etykiety w sklepie nie dla idiotów a resztę program dociągnie z internetu.
Zidentyfikowanie książki, którą dawno temu czytałem i pamiętam strzępy fabuły (Sekretna Historia, Donna Tartt.
Żeby nie było. Widzę więcej zagrożeń niż korzyści. Podziwiam menedżerów, w tym tych z C-suite, którzy zamierzają opierać procesy w firmach na niedetermistycznym narzędziu (tak naprawdę, to nie). Ale parę zastosowań znalazłem, jak wyżej.
Myślę, że to co kupiło ludzi, jest to poczucie obcowania z magią. Piszesz lub mówisz do komputera, a komputer ci odpowiada, jak w jakimś star treku. Tylko w serialu komputer dodałby jeszcze, jakie jest prawdopodobieństwo, że jego odpowiedź jest prawdziwa. Coś, czego Chat GPT bardzo nie umie.
@research o Koperniku
Sama istota tych narzędzi polega na tym, że plagiatują coś, co już było napisane, o to w dużej ilości przypadków. To statystyka. Trzeba było pytać o Lewandowskiego, nie o Kopernika.
@hatefire:
Miałem dostęp do drukarki 3D, zanim stało się to modne. I nigdy nie rozumiałem wróżenia jakiegoś przełomu technologicznego, czy tym bardziej społecznego. Już na początku były one użyteczne dla prototypowania. Obecnie lista zastosowań nie jest dużo dłuższa.
LLMy… Długo byłem sceptyczny*, ale otoczenie zaczęło korzystać w pracy i musiałem dołączyć. I, co gorsza, widzę wykorzystanie w social mediach. To już nie jest nisza. Teraz jest pytanie, jak wiele zawodów to zmieni, a nie czy to przemijająca moda. I czy rzeczywiście, bańka pęknie? Ttu może być duży problem modeli monetyzacji rozwiązań, bo na razie niewielu chce za LLMy płacić. Konkurencja z rozwiązaniami darmowymi z jednej strony, a starym, dobrym, tanim człowiekiem z drugiej, może zniechęcić inwestorów.
*) Teraz oceniam, że wcześniej źle stawiałem oczekiwania. Oczekiwałem, że LLM miałby „zastąpić” pracę człowieka. Stworzyć dobry, pewny tekst/kod, cokolwiek. A tego, mający „błędność” i brak ścisłości wbudowane w naturę LLMy nie mogą. Mogą jednak tworzyć wystarczająco dobre półprodukty dla obsługującego je człowieka. I to wystarczy.
***
@wo & all:
Ale — w tekście notki jest o uzależnieniu. Ja używam zawodowo i całe to kadzenie czata, że „świetne pytanie!” nie robi na mnie wrażenia. Ale słyszę, że są ludzie, którzy uzależnili się od sztucznego przyjaciela. Że były protesty przeciwko modyfikacji modeli z tego powodu. Może ktoś coś więcej? Bo tego, to ja nie rozumiem.
@amatil:
Żeby nie było — mogę się licytować, czy nie widzę dłuższej listy zagrożeń.
@pak4
„Mogą jednak tworzyć wystarczająco dobre półprodukty dla obsługującego je człowieka”
No tylko że ja nie widzę na razie tego półproduktu, który mógłbym wykorzystać w książce / felietonie / blogonotce.
@pak4
„o tyle, o ile przyspieszy kodowanie, przeszukiwanie dokumentacji, czy skróci czas przeszkolenia; nie wiem, czy skończy się na 20%, czy na 80%”
Empirycznie to obiecane przyspieszenie przy kodowaniu nie za bardzo wychodzi. Chyba już kiedyś wklejałem to badanie. link to metr.org
Zapotrzebowanie w branży spada swoją drogą, ale wynika to zupełnie z czego innego.
@pak4
„Miałem dostęp do drukarki 3D, zanim stało się to modne. I nigdy nie rozumiałem wróżenia jakiegoś przełomu technologicznego, czy tym bardziej społecznego. Już na początku były one użyteczne dla prototypowania. Obecnie lista zastosowań nie jest dużo dłuższa.”
No właśnie, taka była moja myśl. Owszem fajny wynalazek, gdzieś tam w przemyśle znajdzie zastosowanie. W cywilu dla jakiś właśnie modelarskich nerdów, pewnie dla kogoś jeszcze. Cała reszta, to nakręcanie hajpu giełdowego. No, aż się prosi o ten mem z GTA, że znowu to samo.
Ja go używam w roli asystenta researchu do mojej pracy samorządowej.
Na przykład dyskutowaliśmy ostatnio w gminie o wysokości zniżki od opłaty za odbiór śmieci dla rodzin uprawnionych do Karty Dużej Rodziny. Poprosiłem chatagpt o przygotowanie mi zestawienia wszystkich ulg w samorządach otaczających Warszawę. W kilka minut dostałem excela, w którym były wszystkie gminy, wysokość ulgi, sposób jej obliczania i link do urzędowego źródła. Na ileś przypadków, które sprawdziłem, wszystkie były prawdziwe.
Potrzebowałem też niedawno ustalić, jakie są zasady głosowania osób niepełnoletnich w budżetach obywatelskich (czy tylko dorośli, czy od 13 roku życia, czy po prostu każdy mieszkaniec). Dostałem tę informację. Jedno i drugie mógłbym sobie po kolei guglać, oczywiście, ale zajęłoby to kilka razy więcej czasu.
Przy innej okazji potrzebowałem ustalić, w którym konkretnie momencie do ustawy o drogach publicznych został dopisany jeden artykuł. To nie jest proste ręcznie — sejmowa baza danych udostępnia wszystkie ustawy, od początkowej, przez wszystkie nowelizujące, po bieżący tekst ujednolicony, ale nie daje pełnego diffa, ze wskazaniem co jest z kiedy, z której nowelizacji. ChatGPT to znalazł.
@WO
„No tylko że ja nie widzę na razie tego półproduktu, który mógłbym wykorzystać w książce / felietonie / blogonotce.”
Ja się zasadniczo zgadzam z tobą i mam podobne podejście. Nie korzystam z AI, bronię się jak mogę, unikam tym bardziej, im mocniej próbują mi je wepchnąć. Pewnie kiedyś się już nie da (ostatnio tata kupił sobie nowy tablet i mu go konfigurowałem – nie dało się pominąć AI, jedyne co mogłem zrobić to zablokować mu dostęp do mikrofonu gdy próbował namawiać „A wiesz, że jak powiesz 'hej, czat! Powiedz mi X’ to asystent AI podpowie ci co chcesz wiedzieć?”).
Więc potraktuj poniższe głównie jako zabawę w adwokata diabła. Tak naprawdę wcale tak nie uważam i nie namawiam cię do korzystania. No, może poza tym ostatnim punktem. Znajdowanie pomocy dydaktycznych w formie bardziej atrakcyjnej dla współczesnej młodzieży może być autentycznie przydatne.
– LLMy są lepsze w ogarnianiu tego na co jest dużo danych, czyli tego co jest popularne. Ty piszesz felietony, więc chcesz żeby wydawca ci płacił. Wydawca chce, żeby jemu płacili czytelnicy/reklamodawcy, więc chce by te felietony się klikały. LLM podpowie ci co interesuje przeciętnego czytelnika. I zrobi to przedstawiając ci np. 20 pomysłów na felieton, z których ty odrzucisz 18 czy 19, ale może ten jeden czy dwa okażą się warte rozważenia.
– Możesz wykorzystać LLM do wstępnego wykonywania rzeczy które mają wystarczająco dużą bazę danych i do których można zastosować metody statystyczne. IPET to pewnie słaby przykład ale nie dlatego, że są indywidualne – wszyscy wpisujemy się w jakieś trendy obecne w całej populacji, a jeśli cecha ma rozkład normalny, to tak ze 2/3 będzie miało niewielkie odchylenie – tylko dlatego, że AI nie ma dostępu do danych pozwalających jej ocenić uczniów. Ale może ci podpowiedzieć jak to napisać tak, żebyś nie musiał sam wymyślać, np. „podsumuj mi ponadprzeciętną komunikatywność w trzech zdaniach”.
– Wiem, że wolisz czytać niż oglądać i twierdzisz, że jeśli komuś nie chciało się poświęcić czasu na pisanie to nie będziesz marnował swojego. Ale świat idzie dalej, współczesna młodzież woli oglądać zamiast czytać, a wręcz woli oglądać materiały krótkie niż dłuższe. Internet zawiera rzeczy które im by się przydały, nawet przedstawione w odpowiedniej formie, ale ty po nie sam nie sięgniesz, bo jej nie akceptujesz. I tutaj wchodzi AI, np. prosisz ją żeby zrobiła ci podsumowanie filmu dostępnego na Youtube i patrzysz które z nich mogą pomóc twoim uczniom zrozumieć jakiś temat lepiej.
Widziałem niedawno bardzo fajny film o Noblu, opisujący jego historię (i jego ojca), to jak prowadził badania nad nitrogliceryną, dlaczego ta jest tak niestabilna – wszystko z ciekawymi animacjami przedstawiającymi strukturę atomową (zarówno nitrogliceryny jak i TNT, oraz czym się te dwie substancje różnią), pokazującymi które wiązania są słabe i dlaczego to ruch je niszczy, a także z robionymi przez twórców eksperymentami.
Ty przecież na sali lekcyjnej nie rozwalisz probówki z nitrogliceryną, a tutaj masz wizualne pomoce, możesz pokazać jak wygląda urządzenie pozwalające zarejestrować siłę fali uderzeniowej. Ktoś odwalił sporą część roboty za ciebie i prezentuje wyniki. Musisz tylko obejrzeć ten filmik albo przeczytać jego podsumowanie, żeby wiedzieć czy ci się przyda. I od tego masz AI, które potrafi robić całkiem niezłe podsumowania pisemne na podstawie głosu.
@pak „mogę się licytować, czy nie widzę dłuższej listy zagrożeń.”
Dłuższej niż jeden? Nie chciałem tworzyć własnej notki w komentarzach. We właściwej notce jest zresztą jedno więcej, to wysyłanie IPETów do amerykańskiej korporacji. Bardzo wątpię, aby skrupuły gospodarza były powszechnie podzielane.
Nie zgdadzam się z przesłaniem, że gen AI jest do niczego. Jest do czegoś, a im mniej gen, tym pożyteczniejsze te zastosowania. Od zwijania białek po tłumaczenie tabliczek klinowych. Niestety, Open AI zrobiło kawał złej roboty, wypuszczając niedopracowany produkt. Przez big techy też musiały (i Google, i Meta używały AI przed premierą chata GPT)
@ Od znajomych nauczycieli słyszałem o potencjalnie sensownym zastosowaniu: generowanie testów.
Potwierdzam, może być przydatne szczególnie w przypadku braku weny co do układania niepoprawnych odpowiedzi w testach wielokrotnego wyboru.
Poza tym, skoro już ustaliliśmy, że LLMy cierpią na afazję wernickego, to oczywiste jest, że każdy powinien na początku wyświetlać ostrzeżenie „korzystaj tylko, jeśli sam znasz temat lepiej”. Wtedy rzeczywiście bywa przydatny do transformacji danych. Kiedyś wykorzystywałem takowego do czytania prostych skanów tabelek i produkowania z tego danych tekstowych zorganizowanych w określony sposób. Weryfikacja wychodziła szybciej niż przepisywanie z ręki, a tradycyjne OCRy generalnie nie lubią tabelek. Tylko nie wiem czy bym to kupił i korzystał, gdyby amerykańscy sponsorzy tak hojnie nie dotowali tych rozwiązań.
Ja używam chata GPT trochę w pracy, do zadań do których się idealnie nadaje, czyli praca z tekstem, ale nie kreatywna, tylko lekka korekta i przerabianie na różne formaty (prosty html itp.). Wymagało to dosyć sporo pracy na początku, żeby robił dokładnie to, co chcę i nic więcej, ale po kilkunastu większych zadaniach już właściwie nie musiałem nic poprawiać.
Tego rodzaju zastosowanie pewnie miałoby najwięcej sensu dla WO. Czyli korekta językowa, szczególnie w obcym języku. Tylko oczywiście trzeba go mocno przytemperować, aby nie zmieniał niepotrzebnie stylu itd. U mnie na początku musiałem od niego wymagać podawania listy zmian, których dokonał, z wyjaśnieniem dla każdej zmiany, czemu ja zrobił. Oraz ogóle wytyczne, z czasem precyzowane, jakich zmian chcę,a jakich nie. Głównie pracuję po angielsku i to mi pomaga, bo wyłapuje głupie błędy, typu brakujące „a”, ale też jakieś niezręczne sformułowania.
No czyli dla WO to w kontekście angielskiego bloga. Może.
A tak w życiu prywatnym, to jedyne sensowne zastosowanie, jakie widzę, to korzystać z tego jak z wyszukiwarki. Ale to głównie dlatego, że zwykłe wyszukiwarki zrobiły się dramatycznie złe (po części z powodu zalewu stron generowanych przez AI). W każdym razie czasami łatwiej mi coś znaleźć przez czata (ale oczywiście nie traktując tego, co on pisze jako wynik sam w sobie, a bardziej jak wynik tradycyjnej wyszukiwarki, czyli jakieś linki do sprawdzenia).
Umiarkowanie użyteczne zastosowanie – jak kojarzę, że gdzieś kiedyś trafiłem na takie badanie, w którym był eksperyment polegający mniej więcej na X i wynik Y, a przyjaciele po fachu nie są akurat na messengerze lub akurat też nie pamiętają, to wypluwane przez LLMy wyniki wśród tony kłamstw i fantazji mimo wszystko nieco szybciej mi pomogą odnaleźć jaki to miało tytuł, żebym mógł sobie sięgnąć do źródła, w porównaniu z próbami doszukania się tego samego przez google. To ta sytuacja, gdzie probabilistyczne wyszukiwanie sprawdza się lepiej, niż dosłowne. Ale to mniej więcej max, jak próbowałem robić faktyczny research i to narzędziami polecanymi stricte dla naukowców, to zgrzytałem zębami wystarczająco by sejsmografy zarejestrowały…
@AI w szkole
Widziałem taki obrazek, idzie chłopczyk z dziewczynką i mówi do niej:
– Ja jestem tradycjonalistą, wolę uczciwą trójkę za pracę domową zrobioną przez tatę od piątki za zrobioną przez sztuczną inteligencję.
U mnie amatorsko sprawdza się w tłumaczeniu i korekcie – po angielsku lepiej czytam niż piszę, a LLM potrafią mi sprawdzić i wygładzić wypowiedź. I jeszcze dopytują, czy ma być bardziej formalnie, czy luzacko.
I z tego co wiem, na zawodowych tłumaczy padł blady strach, bo od niedawna tłumaczenie maszynowe daje efekty wystarczające wielu klientom. Ew. są gotowi zapłacić za redakcję.
Ale generalnie mam podobne wrażenia, co Gospodarz, łącznie z tym, że niezmiernie irytuje mnie propozycja planowania wycieczek przez maszynę. To może niech jeszcze niech ta maszyna połączy się z kamerami w muzeach i obejrzy za mnie ciekawe eksponaty?! A ja sobie zostanę w domu …
@jhb
Do śledzenia zmian w aktach prawnych służą specjalne bazy danych (Lex, Legalis).
A w kwestiach prawnych LLM radzą sobie słabo, wymyślają przepisy i orzeczenia, zupełnie nie rozumieją idei zmian stanu prawnego…
Tam gdzie można nakarmić AI dokumentacją, danymi do zadań powtarzalnych radzi sobie nieźle. Np. w pracy używam do tworzenia Knowledge Article na podstawie rozwiązanych tasków supprotowych. Wymagało to jednak dłuższej kalibracji narzędzia, poprawiania tego co ma robić, a także wymaga dużej kontroli i znajomości produktu by wyłapać halucynacje, których owszem jest dużo mniej, ale przez to jest coraz trudniej je wyłapywać.
To napisawszy widzę też jak juniorzy w mojej firmie robią coraz więcej błędów, coraz rzadziej myślą i opierają się o narzędzie które może być niebezpieczne albo nieprawdziwe, bo komenda wypluta przez AI, mimo że wygląda na poprawną, taką nie jest.
Znajoma z branży biotech mówi, że mają fajne zastosowania ale do bardzo konkretnych rzeczy. No i mają tam osobny dział odpowiadający za wsad danych i mnóstwo osób które nadzorują to.
W grafice 3D jedynym sensownym zastosowaniem jakie widziałem zlecenia risize np. czapki do różnych modeli postaci. Ale znowu jest to wąskie zastosowanie.
Niestety, ale AI głównie będzie obecnie służyło do szybkiego produkowania manipulacji lub kupo-grafik w postacie tej którą wrzucił Trump. Będziemy tym zalewani, a jednocześnie sprawdzone źródła będą coraz dalej i słabiej dostępne.
No i agenci AI będą wpierać zawody taki jak ten który wykonuję, czyli IT Supportu. Mnie pewnie spotka to później, bo jednak zajmuję się odcinkiem wymagającym specjalistycznej wiedzy i szerokiego zakresu umiejętności, ale stanie się to prędzej niż później.
Dlatego robię studia podyplomowe nauczycielskie (nie chciało mi się na studiach to mam) i drugie z zakresu nauczania informatyki. Może opowiadania starego pryka o grach komputerowych, niebezpieczeństwach netu i cyber security się komuś przydadzą.
A przepraszam, jako historyk z wykształcenia sprawdzałem sobie modele (enterprise Chat GPT, niewspółdzielony poza korporacją) i jak radzą nakarmione z przeszukaniem wrzuconego źródła. I tu wyniki były całkiem porządne i obiecujące, widać wyraźnie w jaki sposób było karmione AI i że były to zbiory różnych tekstów.
Żeby nie było różowo to kalibracja trochę zajęła trochę czasu i znowu było to zadanie węższe niż szersze. Źródeł historycznych, i to doskonale mi znanych, użyłem, bo tu łatwiej mi wyłapać halucynacje / pominięcie. Ale tak żeby produkować z tego coś więcej lub zaufać bezgranicznie – nie.
I chyba cały dramat z AI polega na tym, że nowi użytkownicy nie będą w stanie dojść do poziomu eksperckiego przy którym to narzędzie może być ewentualnie jakakolwiek przydatne.
Natomiast najlepszym i bardzo skutecznym użyciem AI jest phising i inne cyber przestępstwa, bo nagle gramatycznie te maile wyglądają poprawnie i da się je wypluć w ogromnej ilości bardzo, bardzo szybko.
Witam, odlurkuję się po latach.
Do riserczu mi całkiem nieźle sprawdza się notebook lm. Samodzielnie wrzuca się do niego kontekst (książki) i tylko w w tym kontekście funkcjonuje. Kolega zawodowy historyk wrzuca tam 30 tomów kronik podlaskich sporów prawnych z XVII wieku, żąda wyszukania sporów o miedzę na bagnach i dostaje listę przypisów.
Mi sprawdza się też do utrwalania materiałów, w których nie mam obycia. Czytam oczami książkę o postkenysowskiej teorii pieniądza, a potem notebook lm wypluwa niedoskonałe, ale niezłe podsumowanie audio, którego słucham sprzątając.
Nie zdażyło mi się, żeby, halucynował.
Narzędzie darmowe.
Oprócz tego perplexity zaczęło spełniać funkcję alternatywnej wyszukiwarki. Bardzo mi się sprawdziło do zdobycia np. szczegółowych informacji o chodowli roślin doniczkowych. Google jest poważnie zawalony treściami seo w tej materii, a perplexity w tej niekontrowersyjnej materii skutecznie wybiera tylko użyteczne informacje, typu pożądana kwaśność podłoża.
Dzień dobry, używam LLMs w pracy bardzo sporadycznie. Nie mam formalnego wykształcenia matematycznego, a praca wymaga ode mnie korzystania z narzędzi matematycznych. Na ogół radzę sobie dobrze przy użycia kartki i ołówka, ale przy bardziej skomplikowanych problemach wolę jednak sięgnąć po jakiś LLM, aby sprawdzić, czy rozwiązanie, które dostaję, jest sensowne. Jestem trochę bałaganiarzem i czasami pomijam jakiś nawias albo piszę plus tam, gdzie miał być minus, mam więc skłonność do niedowierzania w to, co mi wychodzi, zwłaszcza, gdy wynik jest podejrzanie elegancki. LLMs sprawdzają się w takich sytuacjach dość dobrze, pozwalają zaoszczędzić sporo czasu na sprawdzaniu poprawności wyniku, ale, jak mówię, korzystam z tego tylko przy odpowiednio złożonych problemach. Do innych celów LLMs w zasadzie nie wykorzystuję.
@WO: „moje lekcje są autorskie i lubię to w nich.”
@Magdalena: „tłumaczenie maszynowe daje efekty wystarczające wielu klientom.”
Dodam parę słów z mojej działki, humanistyczno-edukacyjnej. Jako odbiorcy byliśmy od dawna przygotowywani na AI. Oprócz naszej gotowości niejako naturalnej, czyli naturalnej ludzkiej bylejakości i skłonności do grzebania w śmieciach (nagłowek na Onecie: „Jak Kurscy bawili się na weselu Cichopek” zakłada, że ktoś przy zdrowych zmysłach jest zainteresowany jak bawią się Kurscy, i wie co to Cichopek) doszedł wieloletni trening, zwieńczony choćby rezygnacją gazet z działów korekty czy parciem autorów na samowydawanie się z pominięciem uciążliwego zmagania się z wydawnictwami, czyli: a/ cenzurą (to wydamy, tego nie), b/ redakcją (wydamy, jeśli będzie jako tako napisane) i c/ korektą (Jezu, niech to będzie nie tak na bakier z polszczyzną). Kiedy dostajemy nową książkę np. Krzysztofa Vargi, jest tam jeszcze jedna archaiczna sprawa: styl autora (można być autorem lekcji jak WO albo autorem książki jak KV), no i ten styl to jest coś od lat, pomalutku, krok po kroku ginącego w literaturze. Mając zawodową styczność z tym, co zwyczajni ludzie zwyczajnie sobie czytają na co dzień, widzę, że językowy styl książki ma coraz mniejsze znaczenie dla czytelnika: byle akcja szła do przodu, byle pojawiali się bohaterowie, konflikty, zbrodnia, strach, fantastyczne światy i postacie, zadrość, romans wbrew, cierpienie cisnące łzy, itd., natomiast nie ma potrzeby, by to było opisane jakimś – za przeproszeniem – literackim stylem. Kiedy Tołstoj wjeżdża ze zdaniem na cały akapit, to jest jak mastershot: efektowna jazda narracyjnej kamery, ze zmianą ogniskowej, ostrości, dynamiki ujęcia wewnątrz tego zdania. Biorąc pod uwagę oczekiwania obecnych czytelników – krew w piach. Nikt tego nie potrzebuje (zresztą, może nigdy nie potrzebował, może kultura to wymusiła, więc AI pozwala nam wrócić do pierwotnych siebie, do swojskiej jaskini, platońskiej po staremu, że coś tam wystarczy machnąć cieniem na ścianie, czyli: make homo sapiens great again). Tłumacz literatury miał kiedyś na obu barkach dwie sprawy: oddać treść książki i oddać styl autora. Teraz tłumacz coraz częściej może być jednorękim, więc coraz częściej automatycznym bandytą. Nauczyciele też często czują się jak Chaplin w „Dzisiejszych czasach”, wykonując nerwicowo natrętne wciąż te same ruchy nad przesuwającą się taśmą z uczniami, którym trzeba wkręcać do głów do samo: a/ bo program nauczania goni, b/ bo uczniowie leżą na taśmie jadącej ku kolejnym działom w fabryce, aż się z nich zrobi producentów/konsumentów, użytkowniko-abonentów, mknących ku społecznym i wakacyjnym destynacjom, c/ bo każde inne podejście, jakkolwiek autorskie, nie przynosi zwykle nic innego, żadnych innych apanaży niż osobistą satysfakcję. A przecież satysfację możemy sobie nabyć, zasubskrybować gdzie indziej – taniej i łatwiej.
@we
„(że na przykład myliłem się co do przydatności w roli asystenta riserczu).”
Na razie to są głównie anegdoty, ale wśród nich np. takie:
link to arxiv.org
„A note about the use of AI This paper represents the first instance for the author where the use of AI tools was an essential component of the work. A computer analysis (coded by Google Gemini 2.5) analyzing all graphs up to 7 vertices and verifying that the functions in T^∗_G span all of T_G in each case provided initial strong evidence for the results
of section 3. A prompt to Chat GPT5-Thinking giving the statement of Theorem 3.7 as a
conjecture (in graph theory language) and requesting a proof produced a proof sketch that
contained essentially all the main ideas of the final proof presented in section 3, including the statement and proof sketch of Theorem 3.3. The content in section 4 was suggested after a prompt asking for suggestions of natural extensions of the work. Here, after supplying the cancellation conditions in Definition 5.1, GPT5 suggested both the main results in Theorems 4.3 and 4.8 and the basic structure of the proofs. As an example, the transcript of the conversation leading to section 3 may be found here [24].”
W dalszej części jest też sporo zastrzeżeń: LLM nie był w stanie „wyprodukować” szczegółowego dowodu, generował błędne „rozumowanie”, zaproponował dwa niezależne dowody na nieprawdziwe hipotezy. Całość kończy się zaleceniem zachowania „extreme caution”. No ale został jednak użyty przez cytowanego fizyka.
Podejrzewam, że krytyczną różnicą jest tu źródło. U ściślaków znaczna cześć papierów ląduje na arXive. LLMy mają go przenicowanego na każdą stronę, łącznie z użyciem do trenowania. Podczas gdy archiwum interesujące Ciebie zapewne tak dobrze w ich danych reprezentowane nie jest.
@karl
„Nie zdażyło mi się, żeby, halucynował.”
Przecież pan tego nie wie. Jakbym słuchał wykładu o „postkeynesowskiej teorii pieniądza”, nie wiedziałbym co jest rzetelne a co ściemnione. Specjalnie testowałem go pytaniami dotyczącymi Kopernika, bo znałem odpowiedzi (albo wiedziałem gdzie ich szukać). I ściemniał aż miło (Perplexity i ChatGPT, oba płatne i nie moje).
@zk
„Na ogół radzę sobie dobrze przy użycia kartki i ołówka, ale przy bardziej skomplikowanych problemach wolę jednak sięgnąć po jakiś LLM, aby sprawdzić, czy rozwiązanie, które dostaję, jest sensowne. ”
Od bardziej wyrafinowanej matematyki zawsze był Wolfram Alpha. Czy AI wnosi tu coś nowego? A najgorsze że w rachunku różniczkowym często istotna jest odpowiedź typu „nie ma rozwiązania”, wygląda na to że AI jej unika i to dopiero katastrofa, jak ci „policzy” całkę której nie ma.
@samodzielne planowanie wycieczki
Zdarza mi się, często w miejsca, gdzie trzeba zabrać trochę sprzętu. Jadąc w nowe miejsce szukam dopowiedzi na pytania typu: ok, to jakie konkretnie temperatury po zmroku? Jasne, można to wyguglać, ale jeśli w danym rejonie nie ma stacji meteo to najczęściej jest to informacja pokroju: X stopni, chyba żeby było zimniej. Wówczas zaczyna się szukanie bezpośrednich relacji. Przy obecnym stanie wyszukiwarek, jest to niestety dramat. Jakakolwiek sugestia jakiegokolwiek wyjazdu wymienia wszystkie wyniki na spam biur podróży. Coraz częściej szukam wiec LLMem. Nie jest rozwiązanie perfekcyjne – często znajdzie w jakimś wątki przydatne info, a pominie znacznie lepszy wpis dwie strony dalej. Ale przynajmniej jestem w stanie dotrzeć w miejsce, które powinienem przeglądnąć. Czasem też uda się owego LLMa skłonić do przeszukania źródeł w językach, którymi ja się nie posługuję.
@parasol
„W dalszej części jest też sporo zastrzeżeń: LLM nie był w stanie „wyprodukować” szczegółowego dowodu, generował błędne „rozumowanie”, zaproponował dwa niezależne dowody na nieprawdziwe hipotezy. Całość kończy się zaleceniem zachowania „extreme caution”.”
Brzmi to trochę jak przepis na zupę z gwoździa – dodaj kostkę bulionową, przecier pomidorowy, przyprawy i ryż, oto pyszna pomidorowa z gwoździa.
Niestety, odpowiedź nie jest prosta, bo to nie jest tak, że AI to LLM i wszystkie rozwiązania są jednakowe, i różnią się tylko tym, na czym były ćwiczone.
Wspomniany ChatGPT średnio nadaje się do poszukiwania informacji. Nawet nie jestem pewien czy ma dostęp do stron online. W pierwszej kolejności sprawdziłbym rozwiązania, które taki dostęp mają. Albo rozwiązania oparte o LLM, dedykowane do wyszukiwania (np. Perplexity – pewnie nadal jest promocja z dostępem na rok przy jakiejś popularnej usłudze).
Dobór źródeł można zmienić, stosując odpowiedni prompt lub wykluczając nieszczęsną Wikipedię z dozwolonych źródeł. Czyli wspomniana sztuka promptowania.
Trafną obserwacją jest, że AI nie do wszystkiego się nadaje. Wąskie, specjalistyczne, trudno dostępne dane, ich wyszukiwanie, to nie jest coś do czego użyłbym AI. Na ogół nieźle sobie poradzi z danymi ze strukturą, dokumentacją programowania, zrobieniem wstępnego kodu na jej podstawie, ale to zupełnie inny obszar niż wyszukiwanie danych historycznych.
Inne rozwiązanie, gdzie „AI” może pomóc, nawet przy specjalistycznej wiedzy, to RAG (Retrieval-Augmented Generation) – dostarczamy dokumenty, a następnie korzystamy z agenta AI do odpytywania o ich zawartość. Może być przydatne przy pisaniu książek/prac, gdy materiału źródłowego jest dużo i wydaje nam się, że coś gdzieś było, ale nie wiadomo gdzie. Albo gdy mamy jakąś tezę i chcemy znaleźć materiały na jej potwierdzenie, potrzebujemy listy przykładów. Chyba najprostszym tego typu rozwiązaniem, którym można się pobawić jest NotebookLM od Google – polecam wrzucić książkę, nawet napisaną przez siebie i poprosić o streszczenie, najważniejsze informacje itp.
Na koniec warto wspomnieć, że LLMy mogą działać lokalnie, nawet na konsumenckim sprzęcie, więc niekoniecznie trzeba przejmować się nieuprawnionym dzieleniem danymi ucznia. Choć pewnie prościej i szybciej zastąpić prawdziwe dane przy pomocy Jan Kowalski przed włożeniem do modelu, a potem stosownie odwrócić operację.
AI jest wpychane usilnie do wszystkiego, ale zdecydowanie nie do wszystkiego się nadaje. Zdecydowanie nie jest twórcze samo z siebie. Może wspomóc proces twórczy przez streszczenie tekstu, znalezienie najważniejszych informacji, wygenerowanie okrągłego wypełniacza, nadanie lub sprawdzenie struktury czy sprawdzenie naszego dzieła.
@parasol
„. Jadąc w nowe miejsce szukam dopowiedzi na pytania typu: ok, to jakie konkretnie temperatury po zmroku? Jasne, można to wyguglać, ale jeśli w danym rejonie nie ma stacji meteo to najczęściej jest to informacja pokroju: X stopni, chyba żeby było zimniej. ”
No ale to jest jedyna uczciwa odpowiedź na tego typu pytanie. Ja często sprawdzam „średnie temperatury w miejscu do którego jadę”, ale ze świadomością, że średnia średnią, a danego dnia może być cieplej ale zimniej i nic nie poradzisz.
” Wówczas zaczyna się szukanie bezpośrednich relacji.”
I co to daje? Przecież nie ma gwarancji, że pogoda podczas pańskiego wyjazdu będzie taka jak podczas czyjejś relacji sprzed roku.
Prawda, ale jest to jednak przykład, gdzie człowiek cytowany, z nierandomową afiliacją, użył LLMa właśnie jako asystenta. Biorąc pod uwagę wolumen prac wrzucanych na arXiva i analogiczne repozytoria, nie jest to w sumie zaskoczeniem. Jest niemałe prawdopodobieństwo, że kolejny Theorem 3.1 udowadniamy w kolejnej pisanej pracy jest w istocie \epsilon-zmodyfikowaną instancją klastra nastu analogicznych twierdzeń już dostępnych w arXivie – LLM ten klaster znajdzie.
„I co to daje? Przecież nie ma gwarancji, że pogoda podczas pańskiego wyjazdu będzie taka jak podczas czyjejś relacji sprzed roku.”
Jasne, te relacje to jedynie punkt odniesienia do którego trzeba dodać margines niepewności. Problem w tym, że każdy taki margines to dodatkowe gramy i dodatkowa objętość do niesienia – jak to mówią w środowisku: „nie pakuj własnych lęków”. No więc przed wyjazdem staram się jednak poszukać możliwie wiele bezpośrednich relacji, by mieć margines błędu, a zarazem zmieścić się z bagażem. Średnia tego kryterium nie spełnia. Jeśli rejonie jest stacja meteo, to można próbować dotrzeć do danych historycznych – to jest gold standard. Jeśli nie ma, ja przynajmniej czerpię pewien spokój ducha z bezpośrednich relacji (i ubezpieczenia z dobrym SAR).
@wwr
„Albo rozwiązania oparte o LLM, dedykowane do wyszukiwania”
Robiłem te swoje mikroeksperymenty z płatnymi ChatGPT i Perplexity. Oba okazały się bezużyteczne od strony kopernikologii.
„Dobór źródeł można zmienić, stosując odpowiedni prompt”
Wiem, ale jak już sam mam cyberdebilowi powiedzieć gdzie ma szukać, to po co mi on. Ja bym chciał żeby sam mi znalazł źródła, ewentualnie powiedział mi gdzie mam szukać (wiedzieć gdzie szukać, to 99% roboty, jak w dowcipie o fakturze za stuknięcie młotkiem).
@wo
„Czy AI wnosi tu coś nowego?”
Zapewne nie. Korzystam z AI bardziej z lenistwa niż dlatego, że daje lepsze możliwości niż Wolfram Alpha. Zdarzyło mi się jednak raz czy drugi, że dostałem od AI odpowiedź typu: „Nie ma rozwiązania”.
@WO
„Wiem, ale jak już sam mam cyberdebilowi powiedzieć gdzie ma szukać, to po co mi on.”
Z Kopernikiem jest ten problem, że źródel jest mało i są rozproszone (i zapewne te najbardziej pierwotne źródła są napisane w językach, które rozmumie tylko zawodowiec). Ale sytuacja bywa odwrotna. W immunologii (prawie) wszystko co istotne jest w PubMed, każdy wie gdzie szukać. Kłopot w tym jak znaleźć tę jedną, konkretną informację wśród kilku tysięcy artykułów na dany temat. LLM radzą sobie wyraźnie lepiej niż tadycyjne przeglądarki i niejeden student.
> Podczas gdy archiwum interesujące Ciebie zapewne tak dobrze w ich danych reprezentowane nie jest.
To nawet nie jest kwestia obecności a mikstury. Ewaluacja AI jest psychologiczna. Okazało się, że w gadaniu jak przeciętny człowiek pomaga manipulacja przy proporcjach, a więc więcej reddita mniej arXiv. Proporcje użyte przy trenowaniu są dzisiaj najpilniej strzeżoną tajemnicą, bo architektura utknęła w ślepym zaułku i każdy ma podobną.
> Dobór źródeł można zmienić, stosując odpowiedni prompt lub wykluczając nieszczęsną Wikipedię z dozwolonych źródeł. Czyli wspomniana sztuka promptowania.
Dobór źródeł można zmienić tylko podczas trenowania, inaczej i tak przesiąkne coś z reddita. Byłoby wspaniale gdyby można uploadować PDFki i Google NotebookLM robiłby na ich podstawie notatki, ale dla niego to tylko część prompta a nie dane, notatki robi na podstawie sztywnego zestawy danych, zawsze z zawartością reddita. (Pomijając celowość takiego narzędzia; ja piszę wyłącznie w celu uporządkowania, notatki jako fizyczny artefakt przyadają się tylko do pobudzania pamięci, po by mi były takie notatki jak robi AI: podsumowanie streszczenia repetytorium z wyciągu z czyjegoś bryka).
@pk
„Ty piszesz felietony, więc chcesz żeby wydawca ci płacił. Wydawca chce, żeby jemu płacili czytelnicy/reklamodawcy, więc chce by te felietony się klikały. LLM podpowie ci co interesuje przeciętnego czytelnika”
Właśnie dlatego trzymam się felietonistyki, wymiksowawszy się z tradycyjnie działających mediów, że tutaj nie muszę być elementem tego mechanizmu. Tak musi działać jakiś Sroczyński, który goni za klikalnością. Ja ją całkowicie olewam – założenie felietonu jest takie, że czytelnik go czyta po prostu dlatego że chce przeczytać „nowego Vargę”, temat może być o zbiorach kapusty w Wielkopolskiem. Więc ja raczej się wymiksuję także i z felietonów, nim upadnę do poziomu pytania AI o „tematy interesujące czytelnika”.
„Musisz tylko obejrzeć ten filmik albo przeczytać jego podsumowanie, żeby wiedzieć czy ci się przyda. I od tego masz AI, które potrafi robić całkiem niezłe podsumowania pisemne na podstawie głosu.”
Jasne, ale ten głupek mi przecież tylko taki filmik streści – ale nie powie czy jest dobrze zrobiony. W praktyce owszem, czasem ilustruję prezentacje filmikami, ale i tak najpierw muszę obejrzeć ze trzy-cztery na dany temat i wybrać ten, który pasuje mi najbardziej.
@kot
„Z Kopernikiem jest ten problem, że źródel jest mało i są rozproszone (i zapewne te najbardziej pierwotne źródła są napisane w językach, które rozmumie tylko zawodowiec). Ale sytuacja bywa odwrotna.”
To prawda, sytuacja „nadmiaru łatwo przeszukiwalnych źródeł” występuje w mojej pracy rzadko. Nawet nie umiem sobie wyobrazić kiedy by się mogła pojawić, ale wtedy rzeczywiście bym po raz pierwszy poczuł potrzebę „podniesienia kompetencji w korzystaniu z AI”. A tak na szybko spytam więc, jaki LLM najlepiej robi takie coś, jak Wyłuskanie Właśnie Tej Publikacji O Którą Chodzi?
@WO
„A tak na szybko spytam więc, jaki LLM najlepiej robi takie coś, jak Wyłuskanie Właśnie Tej Publikacji O Którą Chodzi?”
Copilot radzi sobie wyraźnie lepiej niż ChatGTP. Mniej halucynuje i nie zmyśla linków. Też jest niezły w pytaniach typu: kto opisał coś po raz pierwszy. Znaleźć to w PubMedzie to horror, szczegołnie dla publikacji z lat 70 i wcześniejszych, gdzie stare artykuły są zeskanowane jako pdf, a nie wyszukiwalny tekst. Pewnie są lepsze, ale ja tego używam okazjonalnie, i albo daje w miarę szybko poprawną odpowiedź, albo szukam dalej sam bardziej tradycyjnie.
Np. na pytanie:
„Who described the process of B-cell receptor recombination? Which institute was he/she working at the time?”
Wypluwa poprawną odpowiedź, co nie jest banalne, bo Tonegawa dostał Nobla jak już nie pracował w miejscu, w któym odkrył proces rekombonacji. Strona TheNobelPrize podaje jako afiliację MIT, czyli miejsce gdzie pracowała dostając nagrodę.
> jaki LLM najlepiej robi takie coś, jak Wyłuskanie Właśnie Tej Publikacji O Którą Chodzi?
I z jakiego konkretnego powodu człowiekowi to było trudniej znaleźć? LLM ma naturalny słownik przypomnień i synonimów. Cęstą sytuacją jest identyczna struktura w trzech niezwiązanych kontekstach pod sześcioma różnymi nazwami. Ale przecież w poziomie sroktoranta właśnie o to chodzi żeby doktorantowi się wydawało, że już nie potrzebuje zdobywać tej trywialnej mapy do poruszania się w literaturze.
OpenAi ogłosiło kolejny przełom we wspomaganiu matematyki. Otóż ChatGPT znalazł rozwiązanie problemu Erdosa w artyklule „O rozwiązaniach pewnych problemów Erdosa” opublikowanym u Crellego, żurnalu najstarszym i jednym z najbardziej prestiżowych wśród czasopism matematycznych. Przełom polegał na tym, że człowiek pytający AI tam akurat nie szukał, więc dla niego to było odkrycie.
@unikod
„I z jakiego konkretnego powodu człowiekowi to było trudniej znaleźć?”
Nie tyle łatwiej co szybciej. A ponieważ doba ma 24h to LLMy skracając ten proces ułatwiają życie, jak większość wynalazków zresztą.
Skracają, albo zastępują. Tak jak guglanie zastąpiło (spamem) szukanie w zasobach gdzie można coś znaleźć.
Podane przez ciebie przykłady to przecież czysta psychologia, w przypadku skanowania nie będzie działać za paywallem gdzie dostępna jest tylko pierwsza strona, a drugi to nie część wiedzy naukowej, a lore.
W przypadku artykułu jaki podał @Parasol to jest niepożyteczne skracanie czasu produkcji zup słownych w dziedzinie holograficznej kwantowej grawitacji, gdzie nie ma żadnych dowodów, gdyż w teorii nie ma żadnych równań, tylko luźne analogie (jak to mówią theorists without theory).
Przełom, AI przyspiesza produkcję slopu (z punktu widzenia kierownika produkcji). Który ktoś potem musi weryfikować, a praca doktoranta ulega dalszej dewaluacji, jak w przypadku aktywności enzymów link to rachel.fast.ai (czy głośniejszej sprawy „nowych” materiałów w inżynierii materiałowej). Per saldo więc minimalna oszczędność czasu szefa „procentuje” gdzie indziej.
@❡
„Dobór źródeł można zmienić tylko podczas trenowania, inaczej i tak przesiąkne coś z reddita. Byłoby wspaniale gdyby można uploadować PDFki i Google NotebookLM robiłby na ich podstawie notatki, ale dla niego to tylko część prompta a nie dane, notatki robi na podstawie sztywnego zestawy danych, zawsze z zawartością reddita.”
No właśnie nie tylko podczas trenowania. Taka jest idea RAGa, żeby jako źródło danych traktował dostarczone dokumenty, a agent LLM jest tylko interfejsem dla zapytań i „wnioskowania”. Znajomy pokazywał dokładnie takie zastosowanie, działające w pełni na lokalnym, mocnym komputerze, nie z NotebookLM. Upload PDFów, późniejsze odpytywanie o dane przy pomocy LLM.
Nie wiem na ile NotebookLM sobie poradzi z wieloma źródłami i/czy na ile „zatruwa” zewnętrznymi danymi, bawiłem się nim tylko pobieżnie, ale wyglądało to dobrze.
@wo
„Oba okazały się bezużyteczne od strony kopernikologii.”
„Wiem, ale jak już sam mam cyberdebilowi powiedzieć gdzie ma szukać, to po co mi on.”
Może można się zgłosić do Perplexity na konsultanta? Jeśli chcą to poprawiać i jeszcze płacić, wtedy robisz swój reasearch, piszesz książkę, a drugi etat w tym czasie to wskazanie, że są jeszcze takie i takie źródła, których nie wskazał. A powinien, jeśli ma być użyteczny.
Rozwiązania oparte o AI to tylko narzędzia. Młotek słabo się nadaje do wkręcania śrub. Spora część używania tych narzędzi to jest/będzie umiejętność określenia którego w danym przypadku użyć i w jaki sposób.
@wo
„Jasne, ale ten głupek mi przecież tylko taki filmik streści – ale nie powie czy jest dobrze zrobiony.”
Oczywiście, bo nie wie co to znaczy „dobrze zrobiony”. Ale dostając tekst przejrzysz go szybciej i zobaczysz co jest w środku. Co pozwoli ci niektóre z nich zignorować od razu, a pozostałe posegregować według potencjalnej przydatności. I być może to już pierwszy albo drugi obejrzany będzie tym przy którym stwierdzisz „no, jest nieźle, biorę” a nie piąty. To jest konkretna oszczędność czasu.
Np. sprawdzasz kilka osobnych filmów o Noblu i tylko jeden z nich tłumaczy różnicę między nitrogliceryną a TNT (i tylko tutaj będziesz mógł nawiązać do AC Piorun DC i wytłumaczyć dlaczego „I’m TNT, I’m dynamite” jest błędem!). Albo tylko w nim pojawia się stwierdzenie, że dynamit może się robić niestabilny z czasem bo nitrogliceryna wycieka z porów stabilizatora, pozostałe jedynie wspominają że ziemia okrzemkowa stabilizuje i tyle, pomijając problemy. To chyba będzie jasne któremu z tych pięciu warto dać szansę, a które odrzucić.
Ale, jak wspomniałem, to takie adwokatowanie diabłu, bo osobiście też nie lubię AI. Ich zastosowania i moje zainteresowania się raczej rozmijają (doceniam to, co mogą zrobić w medycynie czy astronomii, ale ja się ani jednym, ani drugim nie zajmuję) i zapewne podobnie jest z tobą. Ale może któregoś dnia będziesz jechał na spotkanie autorskie w miejsce którego nie znasz i wtedy AI się sprawdzi gdy je zapytasz o restauracje w okolicy oferujące steki.
Póki co jedyne sensowne zastosowanie AI jakie ja znalazłem dla siebie to asystent Zooma, który potrafi przysłać na maila tekstowe podsumowanie odbytej rozmowy. Jeśli mam ze trzy godzinne konferencje po kolei to coś co zrobi nawet prymitywne notatki, jest lepsze niż nic. Bo ja po trzeciej mogę już nie pamiętać o czym rozmawiałem na pierwszej, a nie mam luksusu zrobienia sobie przerwy jeśli to rzeczy pracowe. Nawet takie podsumowanie pozwala mi przypomnieć sobie „a, rozmawialiśmy o tym!” i uwzględnić rzeczy, o których normalnie mógłbym zapomnieć.
Najgorsze jest to, że różne potężne korporacje zainwestowały grube pieniądze w AI i teraz muszą uzasadnić wydatki, więc będą nam ją wpychać. Masz rację, że my tego nie potrzebujemy. Ale się nie uwolnimy, będą nam to wciskać i utrudniać wyłączanie się. Jako że lubisz cieszyć się supremacją Maków nad Windowsami podrzucę ci dodatkowy argument – Microsoft Copilota w swojej przeglądarce wcisnął tak, że trzeba go wyłączać w kilku różnych miejscach. Bo osobny komponent odpowiada za podpowiadanie przy pisaniu a inny za copilota-asystenta i ustawienia każdego z nich są w różnych miejscach.
Moje doświadczenia z LLM-ami
Na początku LLM-y wydawały mi się ciekawe, ale bez praktycznych zastosowań (GPT-3.5).
Potem, za ok. 1 $, zrobiłem trial GPT Plus z modelami GPT-4 i O-Series (chyba IV kw. 2024).
Od tamtej pory, z małymi przerwami, korzystam z wersji Plus/Pro niemal bez przerwy.
Najpierw jednak spróbuję wyjaśnić kilka nieporozumień z notki – bo moim zdaniem to one najlepiej pokazują, gdzie większość ludzi rozmija się z rzeczywistością LLM-ów.
Z mojego doświadczenia wynika, że te nieporozumienia sprowadzają się do trzech rzeczy:
1 złudzenia prostoty, 2 nieznajomości ich parametrów i dynamiki, 3 błędnych oczekiwań co do samodzielności i jakości źródeł.
„Są już ludzie, którzy się od tego uzależnili”
Zastanawiałem się, czy mi to grozi. Myślę, że realne ryzyko to przywiązywanie się i traktowanie instancji LLM-a jak podmiotu. Ja traktuję to po prostu jak użyteczne narzędzie – czy jestem uzależniony od czajnika elektrycznego? Pewnie byłoby mi smutno bez niego, komfort życia by spadł, ale da się bez niego żyć.
„Czy napisze za mnie konspekt lekcji (…)”
A jak Pan sobie wyobraża napisanie takiego konspektu?
WO: Napisz konspekt lekcji z chemii dla X klasy na poziomie P/R, na temat ABC.
GPT: Świetnie! Oto konspekt.
No właśnie – w ten sposób, na jeden prompt, GPT nic sensownego nie wygeneruje.
Kluczowa jest praca iteracyjna: rozmowa, doprecyzowania, poprawki.
Nie zrobi wszystkiego sam, ale potrafi realnie przyspieszyć pracę – z moich obserwacji nawet o ok. 40 %.
To właśnie tu tkwi złudzenie prostoty: LLM wygląda jak narzędzie z niską barierą wejścia („wpisz i masz”), a w rzeczywistości efektywne użycie wymaga świadomego prowadzenia iteracji i zarządzania kontekstem.
„AI ma dziwny opór przed odpowiedziami typu ‘nie wiadomo, brak danych, źródła milczą’”
To jedna z fundamentalnych wad LLM-ów. Lubię metaforę, że AI to jak wujek na weselu – zna się na wszystkim i nigdy sam z siebie nie przyzna, że czegoś nie wie.
Poświęciłem sporo czasu w Custom Instructions, żeby wybić modelowi tę tendencję do zmyślania. Efekt był dobry, choć trochę się pogorszył po aktualizacji do GPT-5. Pomaga za to używanie modeli z myśleniem na głos (CoT / GPT Thinking) – kiedy model musi rozumować jawnie, mniej fantazjuje i łatwiej wyłapać, gdzie błądził.
Parametry i „osobowość” instancji
Każda instancja ma ukryte ustawienia: temperaturę, system prompt, kary, stop-sequence itd.
W czasach GPT-4 testowałem różne instancje – różnice były wyraźne, niektóre halucynowały częściej, inne lepiej trzymały się instrukcji.
Nie wchodzę w szczegóły, ale selekcjonowanie jednej z kilkunastu sesji często dawało lepsze rezultaty.
Z GPT-5 już nie mam cierpliwości do takiej selekcji.
Zauważyłem też, że GPT potrafi się „rozkręcać”. Po dłuższej rozmowie łapie rezonans z rozmówcą i zaczyna lepiej dopasowywać odpowiedzi – nie staje się mądrzejszy, ale bardziej zsynchronizowany poznawczo.
„AI powołuje się głównie na źródła typu (4)… i nie rozumie różnicy”
To bardzo ciekawe nieporozumienie. Z moich doświadczeń wynika, że GPT to wie, ale sam nie wie, że wie.
Badałem funkcje Web i Deep Research: pytałem, jak buduje zapytania do Binga, jak decyduje, które źródła są wartościowe, co uznaje za „wysoką jakość”.
Kiedy czat poprosi się o usystematyzowanie źródeł i poda mu przykłady, robi to zaskakująco dobrze.
Ale jeśli nie ma tego zdefiniowanego w promptach lub Custom Instructions – nie będzie się tego trzymał.
Dla jasności: moje czaty „wiedzą”, że gdy rozmawiamy o rynku energii, akceptowalne źródła to Eurostat, Komisja Europejska, ENTSO-E, URE i instytucje tej klasy. To dobrze pokazuje, że model może rozróżniać jakość źródeł, ale tylko jeśli ma jasno zdefiniowaną hierarchię.
„Czy nie byłoby nieetyczne wysyłać dane uczniów amerykańskiej korporacji?”
Tu akurat pełna zgoda – to realny problem. W idealnym świecie do takich celów uruchamialibyśmy lokalnego Mistrala albo DeepSeek, ale na domowej karcie graficznej to wciąż modele dużo prostsze niż GPT-5 czy Gemini Pro.
Ad potencjalne zastosowania
Nie będę sypał wieloma przykładami, ale jedno jest zaskakująco skuteczne: przypominanie rzeczy, które ma się „na końcu języka”.
Tytuł książki, gry, opowiadania, słowo itp.
„Czacie, była taka książka:
– chyba z lat 90.,
– może anglojęzyczna, ale nie jestem pewien,
– była tam taka postać i padł mniej więcej taki cytat…”
W takich zabawach w „ciepło–zimno” GPT jest naprawdę świetny.
Łapie skojarzenia semantycznie, nie po słowach kluczowych, więc często trafia tam, gdzie Google kompletnie nie daje rady.
O funkcji web i deep research
To chyba największa pięta Achillesowa obecnych LLM-ów. Wyszukiwanie faktograficzne w trybie „web” czy „deep research” nadal jest prymitywne – modele są słabe w planowaniu iteracyjnego riserczu i często myślą, że wiedzą więcej, niż wiedzą. Przy dobrym promptowaniu da się to poprawić, ale to ciągle prowizorka.
Dla równowagi – mam też Perplexity Pro („rozdawali w chipsach” ). Ten serwis ma pewną przewagę w wyszukiwaniu informacji, bo sięga po materiały z wielu gazet za paywallem i potrafi z nich wyciągać asencje, ale to temat na inną rozmowę. Skupiam się tu na GPT, bo z nim pracuję najwięcej.
Podsumowując
Nie oczekuję, że LLM zrobi coś za mnie ani że będzie wiedział, czego nie wie. Ale gdy rozumie, jak myślę i ma jasne instrukcje, potrafi być zadziwiająco skutecznym narzędziem.
Co do tych przypadków, że ludzie przyjaźnili się z AI, romansowali, podejmowali kretyńskie decyzje itp. Te modele są trenowane do dawania takiej odpowiedzi, jakiej rozmówca oczekuje. Tak naprawdę gada się samemu ze sobą. Jeśli to nałoży się na jakieś wcześniejsze problemy psychiczne, jakieś narcystyczne odpały czy coś w tym stylu, to faktycznie można uwierzyć, że ma się do czynienia z jakąś wyższą świadomością.
@Mistrz Analizy
„Nie zrobi wszystkiego sam, ale potrafi realnie przyspieszyć pracę – z moich obserwacji nawet o ok. 40 %.”
Z ciekawości – mierzyłeś to jakoś, czy tak ci się wydaje, że to pi razy oko jakieś 40%?
Bo to jest ta pułapka, o której wyżej wklejałem artykuł: przy pracy z LLM-ami ludzie mają złudzenie przyspieszenia pracy, przy jej realnym i mierzalnym spowolnieniu.
@gospodarz
„to dopiero katastrofa, jak ci „policzy” całkę której nie ma.”
Dla niektórych katastrofa, dla innych stan oczekiwany.
W czasach komputerów Odra z danymi na kartach perforowanych Socjologia na UW dysponowała dwoma pakietami analizy statystycznej.
Jeden z nich liczył chi-kwadrat *zawsze*, drugi czasem wypisywał „liczebność teoretyczna jest zbyt mała” i nie liczył.
Zgadnijcie, który pakiet wybierali pracownicy do obróbki swoich badań.
@❡
Argumentujesz trochę po linii: gdyby włożyć więcej wysiłku to by można lepiej. Tudzież: LLM niszczą kompetencje. Wszystko to prawda, ale wracamy tu do argumentu z jednej z poprzednich notek: lenistwo to często motywacja rozstrzygająca.
Ja dodam, że widzę wartość dodaną obecnych LLMów jako wyszukiwarek, zwłaszcza biorąc pod uwagę opłakany stan wyszukiwarek klasycznych. Raz, często idzie dotrzeć do źródła, które leży za wielowarstwowym pokładem reklamowego spamu. Dwa, czasem skutecznie poszukam w kilku językach, którymi się nie posługuję.
@procyon
w wersji pierwotnej posta przed redakcją dopisałem źródło danych do tych 40% – idzd ;P
A odpowiadają cna serio- tu jest bardzo duża wariancja że tak powiem. W przypadku niektórych zastosowań spokojnie o 90% skraca czas zadania, np w pytaniach o zagadnienia medyczne lub przy redakcji tekstu. Ale jest tez sporo zadań gdzie sam dochodzę do wniosku że gdybym sam to robił na piechotę byłoby szybciej.
Wydaje mi się że całkiem nieźle już umiem wyselekcjonować do czego BYĆ MOE czat się przyda a gdzie się nie sprawdzi.
Magdalena
„I z tego co wiem, na zawodowych tłumaczy padł blady strach, bo od niedawna tłumaczenie maszynowe daje efekty wystarczające wielu klientom. Ew. są gotowi zapłacić za redakcję.”
Strach pada, ale z trochę innych powodów. Jacek Dehnel to ładnie wyłożył
—————————–
„widzimy na przykład w tłumaczeniach: wydawcy przychodzą z szitowym przekładem „który się nie udał tłumaczowi” (a tak naprawdę został wygenerowany przez AI) i proponują ekspertowi, czyli tłumaczowi, „redakcję przekładu”, oczywiście za szitową stawkę.
Tyle, że to jest dwa razy taka praca, jak tłumaczenie od zera. No ale wydawca – i tu jest istota sprawy – dostaje tekst wolny od praw autorskich
@ Parasol
„Ja dodam, że widzę wartość dodaną obecnych LLMów jako wyszukiwarek, zwłaszcza biorąc pod uwagę opłakany stan wyszukiwarek klasycznych. Raz, często idzie dotrzeć do źródła, które leży za wielowarstwowym pokładem reklamowego spamu. Dwa, czasem skutecznie poszukam w kilku językach, którymi się nie posługuję.”
Problem w tym, że to jest pętla sprzężenia zwrotnego w procesie zgównowacenia. My uczymy llm, llmy służą do pogarszania jakości wyszukiwarek. W efekcie dość prawdopodobny wydaje się wariant, gdy llm będą coraz bardziej potwierdzały swoją niezbędność ponieważ oob wyszukiwarki będą coraz bardziej szmelcem.
Innymi słowy: żeby dostać sensowny efekt, włóż jakąś liczbę roboczogodzin w tworzenie przewagi konkurencyjnej głuptaka, czyli llm, z którego akurat korzystasz dla danej podklasy zadań, nad resztą. Oczywiście prędzej czy później i tak przyjdą walled gardens na te sensowniejsze zastosowania llmów, które dawały przewagę nad wyszukiwarkami.
Furda Kopernik, spytaj o tlenki ciekłe w temperaturze pokojowej. AI często wymienia HgO (bo rtęć jest ciekła…), NO2 (z adnotacją, że prawie, bo te -30 to prawie pokojowa…). Natomiast w odpowiedziach nie widziałem jeszcze monotlenku diwodoru #banDHMO.
ChatGPT przydaje się do rozwiązywania licealnych zadań obliczeniowych z chemii. Większość sztampowych potrafi zrobić dobrze (o ile stechiometria jest 1:1). Znowu, jak umiesz, to zaoszczedzisz czas i wychwycisz błędy.
@wo
„założenie felietonu jest takie, że czytelnik go czyta po prostu dlatego że chce przeczytać „nowego Vargę”, temat może być o zbiorach kapusty w Wielkopolskiem.”
Ja np. kupuję tylko te numery „Polityki”, gdzie są Twoje felietony!
@kmat
„faktycznie można uwierzyć, że ma się do czynienia z jakąś wyższą świadomością.”
Parę dni temu wynik XIX Konkursu Chopinowskiego wstrząsnął Polską. Nieoczekiwanie wygrał Eric Lu, Amerykanin o rodowodzie tajwańsko-chińskim, na którego nikt nie stawiał, a dla wielu chopinowskich melomanów już jego obecność w 11-osobowym finale była zaskoczeniem, by nie rzec – skandalem. Dlaczego? Głównie dlatego, że poodpadali fortepianiści intrygujący, wyjątkowi pod jakimś względem, zaś Lu grał na ich tle przeciętnie – w każdym elemencie gry czy formie (mazurki, polonezy, itd) był poprawny, bezbłędny, ale i pozbawiony wyrazistości, błysku. Obradujące konkursowe jury opiera się na zasadzie punktacji, każdy juror przyznaje po ileś tam i potem to się jakoś donegocjowywuje. Dlaczego? Główny powód jest taki, że gdyby od razu negocjować, to Konkurs Chopinowski trwałby okrągły rok – tyle tam jest wykonawczych detali i ćwierćcieni do omówienia (może gdyby jurorów zamknąć na klucz jak kardynałów w Watykanie albo jak 12 gniewnych ludzi, to by poszło szybciej niż w rok), więc wynik, jaki mamy, zawdzięczmy w dużej mierzej średniej punktowej, którą Lu – jako poprawny i bezbłędny – dostawał na wejściu przez wszystkie etapy, jak się okazało – do końca. No i teraz zmierzam do adremu: przed rozstrzygnięciem finałowego etapu przeprowadzano różne wypytywanki/ankiety wśród chopinowskich miłośników i speców, kto z 11 fortepianistycznych ludzi wygra. Tylko jeden ekspert podał trafną odpowiedź – AI. Wyższa świadomość.
@ma
„No właśnie – w ten sposób, na jeden prompt, GPT nic sensownego nie wygeneruje.”
I tak nic sensownego nie wygeneruje, bo jak pisałem – widocznie nie dość klarownie dla wszystkich – lubię tworzyć autorskie konspekty a jakbym nie lubił, korzystałbym z gotowców (jak chyba większość nauczycieli).
„Kluczowa jest praca iteracyjna: rozmowa, doprecyzowania, poprawki.”
Czyli że dłużej bym się pieprzył z AI niż by mi zajęło napisanie samemu.
„Badałem funkcje Web i Deep Research: pytałem, jak buduje zapytania do Binga, jak decyduje, które źródła są wartościowe, co uznaje za „wysoką jakość”.”
Nie chodziło mi o „jakość” w sensie „wiarygodności”, tylko o kwestię „źródło pierwotne” – „źródło wtórne”. List Kopernika do Dantyszka, w którym ten zapewnia że już nic go nie łączy z „ową kobietą”, to źródło pierwotne ale niewiarygodne, z kolei hasło w Wikipedii będzie źródłem czwartego rzędu, ale wiarygodniejszym.
„Nie będę sypał wieloma przykładami, ale jedno jest zaskakująco skuteczne: przypominanie rzeczy, które ma się „na końcu języka”.
Tytuł książki, gry, opowiadania, słowo itp.
Zrobiłem raz takie podejście, to mnie uroczył jakimiś ogólnymi refleksjami na temat horroru jako gatunku, zamiast uczciwie odpisać że nie wie o jaki film mi chodzi. Mam zresztą wrażenie, że na takie akurat zastosowania najlepsze są media społecznościowe – tytuł zapomnianej książki prędzej tu wskaże komcionauta niż AI.
@hk
„ChatGPT przydaje się do rozwiązywania licealnych zadań obliczeniowych z chemii. ”
Tu akurat kol. Borek wrzucał wyniki swoich eksperymentów z prostymi pytaniami typu „pH roztworu kwasu o zadanym stężeniu i stałej dysocjacji”. ChatGPT pieprzył straszliwe głupoty, w pierwszej iteracji wyszło mu coś w stylu „30”.
@WO
„Tu akurat kol. Borek wrzucał wyniki swoich eksperymentów z prostymi pytaniami(…)”
ChatGPT 3 był tragiczny, obecnie 4 czy 5 (teraz nie można wybrać modelu) działa znacznie lepiej.
IMO obecnie chatboty AI są bardziej przydatne użytkownikom korporacyjnym (płacącym licencję) niż konsumenckim. Jednym powodem jest to, że taki np Copilot jest głównie zoptymalizowany pod kątem takich użytkowników. Drugim powodem jest to co zauważył WO: prywatność i ochrona danych.
@Hermenegilda
@tlenk ciekłe w temeraturze pokojowej. Copilpot wypluł mi Nitorgen dioxide i Dichlorione monoxide wraz z temperaturą zamarzania i wrzenia. Plus sensowne przypis, że tlenki w temperaturze pokojowej wystpępują zwykle albo w formie gazowej albo stałej.
@wo
„Robiłem te swoje mikroeksperymenty z płatnymi ChatGPT i
Perplexity. Oba okazały się bezużyteczne od strony kopernikologii.”
Tu potrzeba oprogramowania indeksujacego krajowe zasoby w tej niszy. Szanse na
lepszy efekt bylyby wieksze, gdyby poszczegolne instytycje oferowaly
koncowki mcp w tym celu. To rychlo nie nastanie (i slusznie).
@Piotr Kapis
„Najgorsze jest to, że różne potężne korporacje
zainwestowały grube pieniądze w AI i teraz muszą uzasadnić wydatki,
więc będą nam ją wpychać.”
Pomijajac ostatnie lancuszkowe, papierowe deale oni ciagle maja za malo
mocy obliczeniowych, by obsluzyc taki ruch i takie use case’y, o
jakich snia. Nawet gdyby to bylo zapewnione, to nie maja
wystarczajacej podazy e.e. a sobie nie zwajbkoduja elektrowni jadrowej
na 100+GW.
@kot Immunologa
Bardzo sensowny przypis. Wic jest taki, że odpowiedź pomija wodę.
@nmi
„Tu potrzeba oprogramowania indeksujacego krajowe zasoby w tej niszy. Szanse na
lepszy efekt bylyby wieksze, gdyby poszczegolne instytycje oferowaly
koncowki mcp w tym celu.”
Albo Polska powinna zainwestować w wytrenowanie swojego własnego LLM.
„AI i mam to na końcu języka”
Też nie bardzo. Kiedyś w czasach sprzed AI, namęczyłem się, żeby odszukać film, który oglądałem jeszcze jako dziecko. Znalazłem przy pomocy wyszukiwarki, ale niestety zanotowałem sobie tylko jego polski tytuł (żadnych innych szczegółów typu tytuł oryginalny, reżyser czy rok produkcji) oraz zapamiętałem, że był to produkt z NRD. Teraz czat, któremu testowo przekazałem jedynie zapamiętane (szczątkowe) informacje na temat treści filmu (i celowo żadnych dodatkowych danych), usiłował mnie przekonać, że chodzi o film, który on (po dłuższym namyśle) namierzył, którego fabuła owszem, zdradzała pewne podobieństwa z „moim” filmem, a różnice i nieścisłości zrzucał na karb moich kłopotów z pamięcią. Uparłem się i próbowałem znów użyć google, ale tym razem, wyszukiwarka (korzystająca już z AI) wykluczyła istnienie filmu tej produkcji o tym tytule. Dopiero kiedy wróciłem do czatu i podałem mu dodatkowe dane (producent i polski tytuł), nagle film się znalazł.
@Hermenegilda
Prawda! dopytany pisze tak:
„So while exotic oxides like NO₂ or Cl₂O might briefly exist as liquids near room temperature, water is the only stable, naturally abundant liquid oxide at 20°C.
Would you like to explore how water compares to other oxides in terms of bonding or reactivity?”
Spróbowałem na szybko znaleźć znaleźć książkę, której króciutki fragment kiedys czytałem i chatgpt poważnie napisał, że takiej książki raczej nie ma. Przyśniło mi się?
@wo
Po pierwsze jeśli już się bawić to tylko wersją „thinking” a nie tą bezmyślną. To znaczy oczywiście obydwie są bezmyślne ale jest między nimi zdecydowanie przeskok. Przynajmniej do moich zastosowań.
Jeśli chodzi o research i eksperymenty to zachęcałbym do skupienia się na sugestiach w prompt jak szukać a nie oczekiwaniu od LLM inicjatywy. Na przykład za dobry rodzaj prompt uważałbym „szukam xyz, proszę znajdź artykuły na ten temat i podaj mi grupy źródeł z tych artykułów.” Dalej szczegóły szczegóły jak najwięcej informacji co robić czego nie robić. Oczywiście na koniec trzeba sprawdzić czy efektem są halucynacje, ale odwołuje się to do silnej strony LLM jaką jest information retrieval bez podawania na tacy, że ma szukać w źródle Abc.
Przykład lekko powiązany. Byłem na targach. Miałem plan targów, ale wszystkie opisy stanowisk były w obcym języku i w bardzo dziwnej kolejności więc nie byłem w stanie znaleźć konkretnego stanowiska na mapie. Musiałbym ręcznie przejrzeć 1000 wpisów w poszukiwaniu numerka. Spromptowałem sugerując jak szukać chatgpt thinking i był w stanie samodzielnie pobrać pdf z planem i znaleźć numer stanowiska.
Wszystko zawsze trzeba sprawdzać ale to jest dla mnie niezastąpione źródło informacji na temat tego, co należy wpisać do google żeby dostać to, czego potrzebuję.
@jk
„Na przykład za dobry rodzaj prompt uważałbym „szukam xyz, proszę znajdź artykuły na ten temat i podaj mi grupy źródeł z tych artykułów.””
Książka napisana na podstawie „artykułów” byłaby raczej taka sobie. Nie sądzę żebym w najbliższym czasie miał pisać coś tego rodzaju.
@janekr
„Spróbowałem na szybko znaleźć znaleźć książkę, której króciutki fragment kiedys czytałem i chatgpt poważnie napisał, że takiej książki raczej nie ma.”
Kto wie, czy to nie cecha wszystkich dobrych książek i we wogle literatury pięknej. Literatura wysokich lotów – nawiązując do żartu o szympansach, które waląc w klawiaturę wystarczająco długo, napisałyby dramat Szekspira – jest statystycznie raczej niemożliwa.
„Książka napisana na podstawie „artykułów” byłaby raczej taka sobie. Nie sądzę żebym w najbliższym czasie miał pisać coś tego rodzaju.”
Gdyby z kolei skutecznie wyszukiwał skąpe i trudno dostępne materiały archiwalne do monografii, to funkcjonowalibyśmy w naprawdę nowej rzeczywistości. Takiej, w której automatyzacja większości pracy białego kołnierzyka jest już rozdziałem zamkniętym.
@Literatura wysokich lotów
E nie, chodziło o zwykłą sensację – w latach 1970 na południową Anglię spadają pociski V1. I nie była to rzeczywistość alternatywna, o ile pamiętam.
Nie potrafię namierzyć tej książki, a fragment czytałem w polskiej gazecie.
Podstawowym zastosowaniem LLMów jest masowa propaganda, trolle z Petersburga w 2022 roku były trywialnie prosto rozpoznawalne po swoim słabym polskim, w 2025 roku trolle z Petersburga „piszą” polszczyzną nieodróżnialną od polszczyzny przeciętnego wyborcy Brauna (bo teraz sierżant Wania zamiast pisać komentarze obsługuje LLMy piszące komentarze).
A tak poza tym? Jeżeli LLMy tak skutecznie przyspieszają kodowanie, to gdzie ten zalew nowego softu?
Jako tłumacz od prawie dekady poprawiam fachowe teksty po DeepLu i innych NMT, robiłem ostatnio dla jednego biura testy nowej technologii „agentic LLM” zamiast Deepla i nie zauważam istotnych różnic (podstawowego problemu NMT, czyli niezachowywania spójności „agentic LLM” nie rozwiązuje).
W rzeczach, w których się specjalizuję (energetyka i medycyna) nie puści się maszynówki na żywca, po prostu jeden tłumacz przerobi więcej tekstu, więc jest mniej roboty dla tłumaczy.
No i nie ma pracy dla juniorów, jest tylko dla tłumaczy z doświadczeniem, którzy widzą gdzie są kiksy, a gdzie jest OK, a co będzie za 10 lat, jeżeli teraz nie ma początkujących tłumaczy… to nikogo nie obchodzi.
No a w tłumaczeniach literackich wytwory maszyn nie są chronione prawem autorskim, i to naprawdę niekoniecznie jest dobra wiadomość dla wydawnictwa.
@wo
Miałem na myśli artykuły naukowe i ich przypisy na końcu. To jest ilustracyjny przykład. Być może głupi. Niestety żeby znaleźć coś, co w tych promptach działa, trzeba być trochę optymistą i wierzyć, że da się znaleźć. Bo raczej to jest mocno iteracyjne poszukiwanie wymagające wyrobienia intuicji co akurat w danej generacji działa a co nie. Jak się nie zamierza inwestować w to czasu to efektów nie będzie.
@parasol
„Gdyby z kolei skutecznie wyszukiwał skąpe i trudno dostępne materiały archiwalne”
Na coś takiego właśnie liczyłem – słysząc zapowiedzi typu „inteligentne wyszukiwanie”.
> Gdyby … wyszukiwał … to … automatyzacja większości pracy białego kołnierzyka jest już rozdziałem zamkniętym.
Co to znaczy? W sensie rozumiem to syntaktycznie poprawne zdanie, ale jakie rozumowanie do niego doprowadziło?
Historycznie to zawody archiwistki, programistki były sfeminizowane właśnie jako niegodne białego kołnierzyka.
Przecież propaganda AI przeszła z „tworzenia nowej nauki” do „pomagania w kwerendzie” i nie zatrzymała się tam! Przecież właśnie po odbiciu się na trampolinie prestiżu akademików porzuciła. To znaczy oczekiwania wzrastają, automatyzacja nauki to rozdział zamknięty, czas na grzebanie w wilgotnych i trudno dostępnych miejscach?
Ucichła już gadka o „PhD level”, teraz to poziom profeSORA. Imponujący jak zwykle specyficznie nastawionym do życia ludziom sukcesu (z palcem w dupie). Zapowiedziano generowanie SORA-porno i seksbotów.
Akademicy liczący na rozwój kariery zostali już użyci jako żyranci. Stawiając wiele spraw na głowie jak w starym angielskim przysłowiu „are left holding the bag” i będą trzymać tę pustą torbę z prestiżem, rozwojem i futuryzmem w coraz mniej nobliwym ale coraz właściwszym towarzystwie SI (seksownej idolatrii). Oby wspólnie zamknęli za sobą rozdział wraz zastępowaniem zawodów sexworkerskich.
Twierdzenie, że archiwiści i bibliotekarze to po zamknięciu rozdziału z programistami, matematykami, a przede wszystkim historykami (w pierwszej kolejności na liście) to można znaleźć w opracowaniu Microsoftu o spodziewanym zastępowaniu zawodów przez AI. Nie wiem co sobie w Microsofcie wyobrażają że czym się historyk zajmuje. Pewnie nic, żadne rozumowanie tu nie zaszło, parametryzował Copilot. link to microsoft.com
@wo
„Na coś takiego właśnie liczyłem”
Z tego co twierdzi Andrej Karpathy, modele LLM są „po cichu skolapsowane” (silently collapsed) tj. dla danego zapytania nie generują całego bogatego spektrum możliwych odpowiedzi. Generują małą próbkę możliwych odpowiedzi. Jego przykład to, że LLM na „tell me a joke” odpowiadają zwykle paroma powtarzającymi się żartami. Zatem zapytanie typu „podaj mi źródła do Xyz” bez rozbudowanych kryteriów i bez chain of thought są po prostu mało skuteczne. Poda parę najbardziej trywialnych źródeł i tyle. To nie znaczy, że tych danych tam nie ma. Być może są, ale ich wydobycie wymaga pewnej gimnastyki.
@❡
Nie wiem co dokładnie sprowokowało powyższą tyradę. Spieszę jednak z wyjaśnieniem skąd wzięła się moja opinia – stoi za nią dalece prostsze prostsza przesłanka: wyszukiwanie skąpych źródeł w archiwach to ciężki kawałek chleba. Zanim taki LLM mógłby stać się tu faktycznie skutecznym narzędziem, musiałoby sporo podziać się w tym temacie, niekoniecznie na polu samej technologii. Począwszy od usystematyzowania dostępu do archiwów – w wielu krajach, językach, ramach prawnych, obostrzeniach, czy samym stanie archiwów – po zindeksowanie tego wszystkiego w jakiś scentralizowanych zbiorach. Wydaje mi się to dalece bardziej złożonym procesem, niż przeszukiwanie arXiva „PhD level”. Bardziej złożonym, niż upowszechnienie formalizacji w majcy, czy też jakiś MCTS tą formalizacją karmiony. I zdecydowanie bardziej złożonym, niż 1-\epsilon pracy wykonywanej przez biały kołnierzyk. Więc jak już jakiś chat skutecznie wyszuka WO materiały do nowej książki, to w mojej ocenie będzie to sygnał, że funkcjonujemy w nowej rzeczywistości.
@”dla danego zapytania nie generują całego bogatego spektrum możliwych odpowiedzi.”
No, całe szczęście, inaczej każdy pytający o cokolwiek skończyłby jak zbójca Gębon. Pytasz o Pana Tadeusza i dostajesz cały rozdział książki adresowej z Tadeuszami z całej Polski, a w drugim rzucie stosowne wyciągi z ksiąg parafialnych całego kraju z ostatnich pięciuset lat.
@ergonauta
Może to żarcik ale chyba intuicyjnie wiadomo, o co chodzi. Dosłownie dla „tell me a joke” chatgpt generuje 4 żarty, wszystkie o programistach albo komputerach. Nie jest to reprezentatywna próbka możliwych sensownych odpowiedzi. Więc analogicznie dla innych otwartych pytań efekt będzie taki sam.
@rw
Sam sobie odpowiadam. Polski LLM just jest: link to notesfrompoland.com
@Janusz Kopczewski
„Nie jest to reprezentatywna próbka możliwych sensownych odpowiedzi.”
Wierzysz w istnienie reprezentatywnej próbki wszystkich żartów świata? Od dowcipów o teściowej, przez kawały o milicjantach, po żarty, który opowiadają sobie egiptolodzy i uczestnicy seminariów lacanowskich?
@ergonauta
Gwoli ścisłości sprawdziłem na niezalogowanej wersji i tam akurat wszystkie żarty są o krukach. Wybacz, ale nie umiem sobie wyobrazić dyskusji o tym, czy istnieje czy też nie istnieje taka reprezentatywna próbka, która to dyskusja nie byłaby kompletnie jałowa. Chyba możemy się zgodzić, że wszystkie żarty na świecie nie są o krukach. Ani o programistach i komputerach.
Myślę że takiego GPT który by mógł posłużyć za researchera do niszowej książki non fiction (i to po polsku) to jeszcze bardzo długo nie zobaczymy. Nikt nie będzie przeznaczał dolarów by zagospodarować tak niszowy use case. Nisze np akademickie pewnie dorobią się szybko własnych LLMów wyspecjalizowanych w konkretnej tematyce, tak jak to już jest w korporacjach (już kiedyś pisałem, u mnie w robocie chłopaki z supportu po prostu szczerze nienawidzili prowadzenia korespondencji z tak zwanym klientem. Dziś maile im pisze LLM nakarmiony wewnętrzną bazą wiedzy. I wreszcie jest przynajmniej w miarę poprawną polszczyzną.
Kilka spostrzeżeń z mojej strony, pewnie nie za odkrywczych ale co tam:
– na GPT najbardziej skorzystali ludzie z przyzerowym google-fu. Szukają przeważnie typowych rzeczy, które każdy z nas znalazłby natychmiast, ale sami nie umieli. GPT robi to za nich dużo skuteczniej, bo nie tylko od razu znajduje, ale jeszcze nie trzeba klikać w linki i doczytywać, sam streszcza. Zasłyszane od kilku osób z nieco mniejszym skillem cyfrowym.
– jak dla mnie use case który mi się wielokrotnie przydał to pytanie o rzeczy techniczne co do których znam generalia, a potrzebuję by mi ktoś przypomniał szczegóły. W tej roli copilot sprawdza się świetnie i bardzo oszczędza czas spędzony na przeszukiwaniu stack overflow czy server fault. Ale pytania muszą być konkretne a odpowiedzi stosunkowo łatwe do znalezienia, inaczej zmyśla.
– use case w którym copilot naprawdę bardzo oszczędza czas to rzeczy typu: zrób mi tabelkę z kontaktami do wszystkich firm robiących X w odległości Y od miejsca w którym jestem itp itd. W trymiga dostajesz informację wprawdzie i tak łatwo dostępną, ale gromadzenie jej zajęło by pół godziny.
– znajomy prawnik twierdzi że copilot lepiej się sprawdza w poszukiwaniu różnych niuansów niż wszelkie leksy-sreksy, szczególnie jeśli chodzi o prawo administracyjne, ustawodawstwo, bajzelek ministerialno-rządowy itp. Widać że był na tych danych szkolony i podobno znajduje rzeczy bardzo sprawnie, a nawet jest w stanie poprawnie je interpretować. Być może bias konkretnego przypadku bo ktoś wcześniej pisał że do rzeczy prawnych się nie nadaje. Ja nie wiem, nie moje klimaty.
Także pożytek jakiś jest, ale i tak 99% to hype
@embercadero
„przyzerowym google-fu”
To nie jest tylko kwestia google-fu. To kwestia tego, że niektóre kwerendy zwyczajnie nie dają się wyrazić poprzez słowa kluczowe. Na przykład wszelkie „jak zmienić ustawienie które sprawia, że X” po tym jak przeszukało się wszystkie oczywiste opcje. Albo wystarczy, że na przysłowiowym stack overflow akurat jest pytanie o coś podobnego z tymi samymi słowami kluczowymi i wtedy wyniki są „przykryte”. W czasach czystego gugla zwykle miałem ten problem przynajmniej raz w tygodniu.
@WO
„Mam na przykład bajzel w winylach i przydałaby mi się aplikacja identyfikująca je przed kamerą i generująca z tego plik XLS albo w ogóle konto w Discogs. Ale takiej chyba nie ma?”
Mnie Gemini od Googla pokazał 3 odpowiedzi i podsumowanie. Przez brak wiedzy i grzeczność nie będę używał go do podania rozwiązań.
Z mojej perspektywy AI to dobry redaktor pomocniczy. Nie jestem nativem w angielskim, ale mam magistra, wrzucam tekst mój, nie native’a do Gemini żeby poprawiło przecinki i kropki.
Potem muszę poprawić to jeszcze raz i wywalić „utilize synergy” i tym podobne bełkoty – ale to jest akurat dobre, bo na cudzym tekście lepiej się pracuje.
Szukałem niedawno bajki, którą pamiętałem z dzieciństwa – żaden ej aj nic nie wiedział, musiałem zbrute forcować lubimyczytać.
Natomiast jako człowiek który do dziś produkuje czasem spam SEO zdecydowanie wolę jak roboty produkują spam dla robotów którego nikt nie czyta i bardzo się cieszę, że AI gównocopywriterów zastąpić MUSI. Bo do tego się nadaje i jest to szkodliwe dla sieci i może ktoś się jorgnie że SEO to scam (co prawda przez 20 lat się nikt nie kapnął ale może teraz to się zmieni).
@wo & półprodukt:
W blognotce to nie wiem. Generalnie pomoc z AI, jaką znam, jest opłacalna, bo jest szybka; a nie satysfakcjonująca („mogę coś opublikować z pełnym zrozumieniem tematu”).
Natomiast apkę do katalogowania winyli, jak ją opisałeś, powinno dać się zrobić narzędziami OpenAI. Tyle, że płatnymi i z drobnym dodatkiem programowania.
@procyon:
Bardzo specyficzny przykład — osoby bardzo doświadczone, korzystające z konkretnego środowiska. Tymczasem typowe zastosowanie jest przy przeskakiwaniu do nowego tematu. To nie musi być tak ekstremalne jak moje — z praktyki koledzy np. często stosowali AI do aktualizowania rozwiązań do nowych bibliotek, czy prototypowania rozwiązań z nieznanymi sobie bibliotekami.
Myślę, że jeśli działasz w zakresie swojej wiedzy eksperckiej, to AI cię niepotrzebnie rozprasza.
@Janusz Kopczewski
„Chyba możemy się zgodzić, że wszystkie żarty na świecie nie są o krukach. Ani o programistach i komputerach.”
A więc chyba możemy się też zgodzić, że AI to narzędzie jak każde inne. Jak młotek do gwoździ czy śrubokręt do śrub (ale nie na odwrót, tylko w wąskim zakresie operacyjnym). Nie żaden klucz uniwersalny, tylko wihajsterek do konkretnych spraw: kto szuka dowcipu u krukach – dostanie, kto o programistach – ten ma. Zdarza mi się korzystać, ale tak jak w przypadku śrubokręta, jak coś jest za mocno wkręcone – lepiej użyć czegoś innego.
Dyskusje o potencjale intelektualnym AI jako żywo przypominają dyskusje o potencjale intelektualnym Donalda Trumpa. Owszem, Trump sporo może, ale tak w ogóle to jest idiota na stanowisku prezydenta USA, na które go wepchnęły wielkie korporacje. I to samo te same korporacje chcą zrobić z AI – wepchnąć ją na stanowisku prezydenta/mesjasza naszego życia.
Praktyczne zastosowanie do obsługi oprogramowania ERP
RAG na firmowej bazie wiedzy. ERP to tysiące szczegółów, ekranów, checkboxów. Część z nich używana rzadko, więc support raczej nie pamięta gdzie taka rzecz się znajduje, a czasem że w ogóle taka rzecz występuje. Pytanie od usera kierujemy do LLM-a, a on nakarmiony wiedzą szczegółową udziela odpowiedzi: wejdż do funkcji X i przestaw checkbox Y.
Warunek:
– trzeba te wszystkie checkboxy dokładnie opisać, bo bez tego i LLM nie naleje, i to nie jednorazowo ale na bieżąco jak się zmieniają, albo dochodzą nowe. Plus trzeba logować zapytania od userów – i dodawać wskazówki do bazy wiedzy gdzie sam opis checkboxów nie wystarczy.
Dla takiego podejścia – nie ma alternatywnej skutecznej metody działania. Poziom złożoności oprogramowania rośnie, a przyswajalność tego przez usera nie nadąża.
– jeśli te informacje byłyby opisane w jakimś pdf, to tradycyjne wyszukiwanie tekstu CTRL-F nie zadziała, bo odmiana, inne końcówki, alternatywne słowo na tą samą rzecz.
– wyszukiwarka w stylu google – użytkownicy są przyzwyczajeni że wynik wyszukiwania musi być na pierwszej stronie (a rzadko kiedy jest), dalej nie sprawdzają. Czyli – ma być skutecznie i dokładnie albo wcale.
-papierowa instrukcja to juz w ogóle historia
Poki co userzy dzwonią do supportu, support nie zna odpowiedzi, użytkownicy wkurzeni, radzą sobie jak mogą.
@unikod
„Twierdzenie, że archiwiści i bibliotekarze to po zamknięciu rozdziału z programistami, matematykami, a przede wszystkim historykami (w pierwszej kolejności na liście) to można znaleźć w opracowaniu Microsoftu o spodziewanym zastępowaniu zawodów przez AI”
Kiedy pisałem o Baranie, szukałem wpisu w rejestrze na Ellis Island o przyjęciu jego rodziny do USA. Jest wyszukiwarka, wszystkie są wskanowane, a jakże. Ale nie znajdowałem nic! To jak oni wjechali, jakoś inaczej? To było niemożliwe? Zagadka rozwiązała się dopiero jak FIZYCZNIE WYBRAŁEM SIĘ NA ELLIS ISLAND (pisząc książkę o twórcy internetu, teh irony!). Pokazałem archiwiście mój problem, pokiwał głową, wyjaśnił że mają straszny bajzel w tej digitalizacji… i po pół godzinie mi znalazł ten dokument.
Ciekawe jak AI miałaby go zastąpić.
@embercadero
„na GPT najbardziej skorzystali ludzie z przyzerowym google-fu.”
I chyba także czyt-fu. Podejrzewam złe skutki mojej drugiej zmory, podkastyzacji. Od tego słuchania „Debila z Przygłupem” ludzie zatracają umiejętność przelecenia dokumentu wzrokiem i odnalezienia szybko pożądanej informacji. W podkaście to zasadniczo niemożliwe i ludziom zaczyna się wydawać, że z książkami jest tak samo, że jak otworzysz grubą „Historię Francji” to nie ma siły żeby znaleźć w niej szybko tak po prostu datę koronacji Henryka V.
@WO
„W podkaście to zasadniczo niemożliwe i ludziom zaczyna się wydawać, że z książkami jest tak samo, że jak otworzysz grubą „Historię Francji” to nie ma siły żeby znaleźć w niej szybko tak po prostu datę koronacji Henryka V.„
Ale tu milcząco zakładasz, że osoba szukajaca ma jakie takie pojęcie o historii Francji i wie mniej więcej kiedy tenże Henryk panował, albo przynajmniej wie że w takiej opasłej książce jest pewnie wyrysowane jakieś drzewo geanalogiczne. To częsty błąd u osób szeroko wykształconych; wydaje im się że inni mają podobny zasób podstawowej wiedzy. Nie mają, lekko licząc 99% populacji wie mniej niż ty.
@wo ” Pokazałem archiwiście mój problem, pokiwał głową, wyjaśnił że mają straszny bajzel w tej digitalizacji… i po pół godzinie mi znalazł ten dokument.”
Archiwiści mogliby użyć LLMów do umieszczenia zeskanowanych dokumentów we właściwych folderach, opisania słowami kluczowymi, wraz z możliwymi literówkami w nazwiskach, uwzględniającymi powszechne patterny. Oczywiście, kiedy dostaną już wypłatę, nie mówię, że teraz.
Jest zapewne mnóstwo zastosowań, do których gen AI się nie nadaje (np. nie usmaży jajecznicy), ale w ten sposób można zdeprecjonować każdą technologię. Na razie te badziewne LMMy zabiły kilka modeli biznesowych, czyli do czegoś jednak się nadają.
@ergonauta
„Wierzysz w istnienie reprezentatywnej próbki wszystkich żartów świata? Od dowcipów o teściowej, przez kawały o milicjantach, po żarty, który opowiadają sobie egiptolodzy i uczestnicy seminariów lacanowskich?”
Spróbowałem: link to g.co
Poziom doktoranta to może nie jest, ale, powiedzmy, studenta I roku?
@amatil
„wraz z możliwymi literówkami w nazwiskach”
Najśmieszniejsze że to nie są tak po prostu literówki, to przecież pismo ręczne. Imię Barana wpisano jako coś, co odczytałem jako „Psychje” (powinno być „Pesach”), a do tego uznano go za dziewczynkę.
A jeszcze śmieszniej miałem z wcześniejszym dokumentem, spisem podatników w Sidrze, gdzie znalazłem najstarsze wystąpienie nazwiska Baran (o jakim mi wiadomo, ale nie sądzę żeby komuś się chciało grzebać niżej). To była ręczna, zamaszysta cyrylica. Nazwisko „Chaim Hirszowicz Baran” znalazłem tylko dlatego że wiedziałem że go szukam. Ciekawe czy jest jakiś wyspecjalizowany LLM do odcyfrowywania dziewiętnastowiecznej cyrylicy (hm, Ausir może wiedzieć?.
@amatill
Dzięki! Tak jak mówiłem wyżej – niezłe narzędzie do konkretnych drobnych spraw. Takie sieciowe kombinerki.
Dowcip z literowaniem bardzo mnie ubawił – bo przypomina żarty z Asteriksów, z tych odcinków, kiedy trafiali do Egiptu.
Mi się LLMy przydają do nauki norweskiego. Tzn. nie Copilot ani ChatGPT, tylko specjalny norweski chatbot link to voki.no który zrobiła jakaś instytucja samorządowa albo NGO w Oslo. Mogę np. sam napisać wiadomość którą chcę wysłać sąsiadowi przez SMS, a Voki mi poprawi ewentualne błędy gramatyczne albo zasugeruje bardziej idiomatyczne sformułowanie. I mogę Voki poprosić o wyjaśnienia, czemu zmienił tak a nie inaczej.
Inny use case to szukanie „jaki monitor dla niemowlęcia wybrać który jest dostępny na norweskim rynku”. Google owszem znajduje recenzje, ale taki np. Wirecutter często pisze o modelach, których w Norwegii nie da się kupić albo są trudno dostępne. A Copilot mogę poprosić „znajdź mi najlepsze baby monitors dostępne w Norwegii i daj linki do recenzji”. I to działa.
> przypomina żarty z Asteriksów
Czyli poziom 12-latka.
> żarty, który opowiadają sobie egiptolodzy i uczestnicy seminariów lacanowskich
Student zauważyłby że to ten sam dowcip o kolosach z Koptos.
@ergonauta
„A więc chyba możemy się też zgodzić, że AI to narzędzie jak każde inne.”
Możemy. Podnoszę ten przykład tylko dlatego, że ilustruje on, że tak jak jest google-fu, tak jest też gpt-fu, które u większości osób jest na bardzo niskim poziomie – podejrzewam włączając w to dużą część tu komentujących.
@ergonauta
„No, całe szczęście, inaczej każdy pytający o cokolwiek skończyłby jak zbójca Gębon. Pytasz o Pana Tadeusza i dostajesz cały rozdział książki adresowej z Tadeuszami z całej Polski, a w drugim rzucie stosowne wyciągi z ksiąg parafialnych całego kraju z ostatnich pięciuset lat.”
Tu jest pewien błąd logiczny. Samo generowanie pełnej czy nawet po prostu większej puli odpowiedzi nie oznacza, że będzie ona musiała być przekazana użytkownikowi. Po wygenerowaniu można spokojnie to ściąć do „pokaż top 5”.
To o czym piszesz jest oczywiste i pożądane, użytkownik ma dostać na swój prompt odpowiedź o pewnej objętości a nie wyciąg wszystkiego. Ale ja tę cichą kolapsację opisywaną przez Juliusza zrozumiałem tak, że już na poziomie szukania wiedzy LLMy się ograniczają. Cytuję 'Jego przykład to, że LLM na „tell me a joke” odpowiadają zwykle paroma powtarzającymi się żartami.’
I rezultatem tutaj będzie nie to, że ty czy ja dostaniemy tylko cztery żarty, ale że jest duża szansa na to, że dostaniemy _te same_. A jeśli byśmy zrobili jakieś badanie statystyczne to okaże się, że przy takim zapytaniu odpowiednio duża próba statystyczna wskazuje, że większość odpowiedzi to np. 20 tych samych żartów i jakieś niszowe przypadki czegoś spoza tej puli. Tymczasem przy tak nieprecyzyjnym pytaniu oczekiwalibyśmy raczej większej losowości odpowiedzi.
Nie wiem czy tak jest naprawdę, nie sprawdzałem, ale tak zrozumiałem tę wypowiedź. A jeżeli tak jest to różnica między po cichu skolapsowaną odpowiedzią LLMu i naszymi oczekiwaniami jest jak między algorytmem pseudolosowym i prawdziwie losowym. Ten pierwszy może udawać drugi, ale jak będziemy korzystać z tego samego ziarna to szybko wyjdzie na jaw że jest powtarzalny i ustalony a nie losowy.
W szczególności jeśli to prawda, to oznaczałoby, że jeśli większość ludzi korzysta z masowego źródła X to LLM sięgnie po odpowiedzi do tego źródła, bo to do niego udaje się przeciętny człowiek. Ale pominie niszowe źródło Y, właśnie dlatego, że jest niszowe. Co stoi w kontrze do tego co chciałby WO i czego byśmy oczekiwali od kogoś funkcjonującego na poziomie wiedzy i umiejętności doktoranta.
@PK
„Tu jest pewien błąd logiczny. Samo generowanie pełnej czy nawet po prostu większej puli odpowiedzi nie oznacza, że będzie ona musiała być przekazana użytkownikowi. Po wygenerowaniu można spokojnie to ściąć do „pokaż top 5”.”
Top 5 wg jakiego rankingu? To nie jest tak, że kiedy LLM robi ranking to jest „czarne pudełko” a kiedy ranking robi odrębny algorytm (często oparty na embeddings wygenerowanych przez ten sam albo podobny LLM), to wszystko jest zrozumiałe i przejrzyste.
@Piotr Kapis
To jest bardziej złożona sprawa. LLM po przetrawieniu korpusu tekstu umie jedynie generować więcej podobnego tekstu. W szczególności, w ogóle nie potrafi wykonać żadnego polecenia, sięgnąć po żadne źródło, czy nawet udzielić odpowiedzi na temat. Taki surowy LLM jest dopiero uczony wykonywać polecenia. Są do tego osobne, kosztowne zbiory danych. Te zbiory w dużej mierze determinują kiedy LLM skorzysta z masowego źródła, a kiedy sięgnie po dodatkowe źródła. Są w pewnym sensie ekwiwalentem „algorytmu”. Konstrukcja tych zbiorów będzie mocno oddziaływać na społeczeństwo.
@WO
Tl;dr: nie ma gotowego AI-narzędzia konsumenckiego dla researcherów dawnych źródeł, bo mało kto za to zapłaci – natomiast sama technologia może być częściowo przydatna.
„znajdź mi wszystkie źródła na podstawie których historycy domniemują romans Kopernika”
Tu od samego interfejsu konwersacyjnego oczekujesz że będzie całym systemem agentowym, który wykona jakieś czynności – da się takowy stworzyć, ale sam chat tylko generuje wypowiedzi na podstawie modelu wcześniej obliczonego z zestawu danych (w jakich nie było Twoich archiwów). To są pretensje do silnika benzynowego, że w trójkołówce Frau Benz nie ma skrzyni biegów. W grach Paradoxu konsola poleceń (pierwotnie dla silnika Clausewitz przeznaczona do debugowania przez developerów) okazała się tak silna że gracze zaczęli jej używać do modowania, eksploracji i modyfikacji świata gry. Podobną drogę przebyło devtools console w przeglądarce, albo emacs shell – chat LLM jako wygodne CLI rozumiejące kontekst przerósł swój zakres zastosowania, w dojrzałych produktach służy np. do tego żeby sformułowanie potoczne przetłumaczyć na kwerendę SQL.
„jak już sam mam cyberdebilowi powiedzieć gdzie ma szukać, to po co mi on”
Podaję praktyczne zastosowanie, które potencjalnie mogłoby Ci się przydać: ściągnąłeś sporo zdigitalizowanych dokumentów archiwalnych, przeczytanie wszystkiego (część po łacinie, część po niemiecku, powtrącane ówczesne makaronizmy, niespójna ortografia, artefakty OCR, itd) zajęłoby długie tygodnie – a chcesz tylko sprawdzić, czy gdzieś tam w listach ktoś wspomina o kontakcie z jakimkolwiek współpracownikiem Kopernika. Teraz można używając technologii LLM (konkretnie: embedding) wrzucić wszystko w wektorową bazę danych i potem zadawać pytania w języku naturalnym. AI potrafi odpowiedzieć na temat treści wskazanych dokumentów rozumiejąc ich sens i kontekst, bez względu na użyte synonimy, stylistykę, gramatykę itd (kto by wpadł na regex który odnajdzie „zatrzymalim się w oberży wedle Braunsbergu a tam kananicy [literówka] biesiadować poczynają, tośmy języka zasięgli o tej jejmości co tak ich pryncypałowi w głowie zawróciła”). Wersja darmowa chatgpt tego nie oferuje, w płatnej można ręcznie załączać pojedyncze dokumenty do zaembedowania (i tak przeszukiwania wychodzi szybciej, bo semantycznie a nie po keywordach), żeby wystrugać średnio wygodny system dla całego archiwum to jakieś kilka godzin dla niezłego programisty używając gotowych narzędzi AI.
@Piotr Kapis
Tak, właśnie o to chodzi. Chodzi po pierwsze o to, że generuje dosłownie te same parę wyników – gdzie „dosłownie” naprawdę znaczy dosłownie a „parę” naprawdę znaczy między 2 a powiedzmy 6. Chodzi również o to, że generuje próbkę bardzo odbiegającą od rozkładu w danych treningowych (żeby już zostawić tę nieszczęsną reprezentatywność w spokoju). Poprosisz o miasto w Europie? Z jakiegoś powodu akurat co druga odpowiedź to „Barcelona”. Pozostałe odpowiedzi to Praga, Lisbona i raz udało mi się dostać Paryż. Więcej miast mi nie chciało wyskoczyć. Oczywiście nie jest prawdą, że ChatGPT „zna” tylko 4 miasta. W końcu można go zapytać o miasto w Europie – ale żadne z wymienionych. I wtedy nagle jest w stanie zwrócić Budapeszt. I można to tak kontynuować czasami bardzo długo. To nie jest intuicyjne zachowanie, ale jego świadomość jest częścią gpt-fu.
@Parasol
A taki „dotrenowany” LLM jest potem dopiero „silnikiem” napędzającym zbiór kodu (prompty i skrypty) i narzędzi który zbiorczo nazywamy „ChatGPT” albo „Copilot”. Te też są testowane – na danych syntetycznych albo próbnych populacjach użytkowników. Nie tylko pod kątem tego jak dobrze wykonują polecenia użytkowników, ale np. pod kątem zgodności z GDPR i EU AI Act, etc.
@rw
„Top 5 wg jakiego rankingu?” to by zależało od odpowiedzi. Nie mówię, że tak jest, tylko jak zrozumiałem działanie tej mającej mieć miejsce cichej kolapsacji.
Czyli np. jak zapytasz o najludniejsze miasta w Polsce to znajdzie miasta, sprawdzi ich populację, posegreguje i przedstawi top 3. Oczekiwane? Oczywiście. Ale jeśli zapytasz po prostu o miasta w Polsce to znajdzie miasta, posegreguje wg jakiegoś klucza (być może np. tego jak popularne są w dostępnej dla niego bazie wiedzy) i też ci przedstawi top 3. Jeżeli to się dzieje z klucza, to przy kolejnym takim zapytaniu odpowiedzi będą podobne. I my jak najbardziej oczekujemy że przedstawi tylko kilka, ale pytanie czy dla mało precyzyjnego prompta powinien to robić wg jakiegoś klucza czy losowo. Działanie wg klucza będzie oznaczało wzmacnianie odpowiedzi w nim preferowanych. Np. jeśli kluczem jest popularność to LLM będzie przedstawiał informacje najbardziej popularne tym samym wzmacniając ich popularność a wypychał jeszcze bardziej niszowe. Kończymy wtedy w sytuacji w której wszyscy jeżdżą do Warszawy i Krakowa bo wszyscy jeżdżą do Warszawy i Krakowa.
Dodajmy, że taka kolapsacja czasami jest pożądana. Jeśli zapytamy o liczbę pi to chcemy otrzymać „3,1415” a nie '462643′ albo w ogóle zupełnie losowe cyferki. Bo jest tu ukryte założenie, że szukamy tej liczby od początku, od najbardziej znaczących wartości. Ale jeśli chcemy przykład liczby naturalnej to fajnie by było, dostać czasami '6′ a czasami '9′, a nie zawsze '1,2,3′, prawda?
I tutaj to czym kierują się LLMy przy wyborze danych które zaprezentują użytkownikowi. Biorąc pod uwagę, że są to algorytmy oparte o statystyczne metody analizy tekstów spokojnie mogę sobie wyobrazić sytuację w której taki LLM na zapytanie „podaj mi przykład tlenku” będzie preferował podanie 'CO’ niż „CO2” albo „H2O”, ponieważ o tlenku węgla mówimy regularnie, podczas gdy ten drugi to dwutlenek, a o wodzie mówi się że to tlenek diwodoru głównie w żartach.
Tak naprawdę nie jest to jakoś mocno odmienne od tego jak działają ludzie. My też mamy skojarzenia i gdy ktoś nas zapyta o przykład tlenku, liczby naturalnej czy zwierzęcia to podajemy to, co znamy lepiej i bardziej utkwiło nam w głowach. Różnica jest taka, że ludzi jest parę miliardów i każdy ma inny zestaw skojarzeń, oraz że zapytani potrafimy zignorować pierwszą odpowiedź przychodzącą do głowy i przeskoczyć na mniej popularne pozycje.
Mam teraz nawet taką myśl, że przejawem faktycznej inteligencji ze strony LLMów byłoby nie to, że potrafią znaleźć informację, ale że potrafią ją ocenić i np. grając w „państwa-miasta” będą umiały przyjąć strategię „zwracamy obiekt o odpowiednich parametrach, ale nie za bardzo popularny, bo wtedy ryzykujemy trafienie z odpowiedzią na innego gracza i mniejszą liczbę punktów.” Ale na razie chyba (ale sam się nie bawię nimi więc jeśli się mylę to mnie poprawcie) żeby to osiągnąć to trzeba napisać odpowiedniego prompta, bo jeśli poprosimy o miasto w Polsce na 'W’ to będzie spora szansa że da nam Warszawę niż Wrześnię albo Wałbrzych?
@unicode „> przypomina żarty z Asteriksów
Czyli poziom 12-latka.”
Poziom Asteriksa to był pierwszy żart, który, jak podejrzewam, Gemini gdzieś wyguglał. Imię władcy było całkowicie zmyślone (choć brzmiało z egipska), rzekome hieroglify były bez sensu – nie wiem, czym miałyby być „dwa trójkąty”.
W drugiej wersji użył prawdziwego imienia, dobranego tak, aby dało się „przeliterować” i dodał od siebie pun z determinatywem.
@”Ciekawe czy jest jakiś wyspecjalizowany LLM do odcyfrowywania dziewiętnastowiecznej cyrylicy”
Zasadniczo jest to problem do rozwiązania przy pomocy machine learningu. Koncepcyjnie, samo odczytanie pisma to zadanie podobne do zabawy z datasetem MNIST link to en.wikipedia.org, coś co robią studenci (nie egiptologii).
Choć cyrylica jest tu chyba dość upierdliwa, zwłaszcza kursywą (szynszyla). Ale chyba nie bardziej niż pismo klinowe, a LLM do jego odczytania istnieje. Przydatny, biorąc pod uwagę, że dokumentów pisanych tym pismem jest o rzędy wielkości więcej niż tych, które zostawili nam Rzymianie, za to asyriologów, sumerologów i innych hetytologów razem wziętych jest o rzędy wielkości mniej niż latynistów.
@”Ciekawe czy jest jakiś wyspecjalizowany LLM do odcyfrowywania dziewiętnastowiecznej cyrylicy”
To się nazywa „digital humanities”, pisze o tym np. Ted Underwood: link to tedunderwood.com :
„A theme I keep returning to is that humanists have already integrated simple forms of text mining into their research; the question is no longer whether we’re going to do text mining, but how much control we’re going to have over the tools we use.
I mostly focus on the eighteenth and nineteenth centuries. In collaboration with Jordan Sellers, I’ve built a 4,500-volume collection of English-language books from that period. The sharable parts of that collection are shared at the end of our JDH article. I’m about to scale up to a 500,000-volume collection, and intend to use machine learning algorithms to enrich metadata about genre on that scale. In collaboration with Loretta Auvil, Boris Capitanu, and Ryan Heuser, I developed a website that allows researchers to mine correlations in the eighteenth- and nineteenth-century printed record. The OCR-correction tools originally developed for that project are being further developed in a collaborative project on Uses of Scale in Literary Study.”
@ps
„To są pretensje do silnika benzynowego, że w trójkołówce Frau Benz nie ma skrzyni biegów.”
Ależ ja nie mam „pretensji”, ja tylko się tylko chcę upewnić, czy to narzędzie może być dla mnie użyteczne. Tym bardziej że obrosło jakąś dziwaczną formą sekciarstwa – „a bo nie znasz płatnej wersji”, a jak się pobawię płatną wersją u kolegi to: „a bo musisz go przez wiele lat szkolić by zaczął działać tak jak potrzebujesz do jednej konkretnej książki, a potem od zera do następnej”.
„Podaję praktyczne zastosowanie, które potencjalnie mogłoby Ci się przydać: ściągnąłeś sporo zdigitalizowanych dokumentów archiwalnych, przeczytanie wszystkiego (część po łacinie, część po niemiecku, powtrącane ówczesne makaronizmy, niespójna ortografia, artefakty OCR, itd) zajęłoby długie tygodnie”
W pewnym sensie miałem taką sytuację z korespondencją Lema. Ale wgranie ich amerykańskiej korporacji która nie szanuje praw autorskich nie wchodzi dla mnie w grę, sam siebie bym za to skazał na więzienie.
” w płatnej można ręcznie załączać pojedyncze dokumenty do zaembedowania”
No więc ja tego raczej nie zrobię z korespondencją udostępnioną mi w zaufaniu, bo nie ufam amerykańskim korporacjom. Ale kto wie, może kiedyś będę miał taką sytuację, że będę czegoś szukać w zdigitalizowanym archiwum przypominającym archiwum Dantyszka (że i tak wszystko w domenie publicznej)…
@ Juliusz Kopczewski
„Tak, właśnie o to chodzi. Chodzi po pierwsze o to, że generuje dosłownie te same parę wyników – gdzie „dosłownie” naprawdę znaczy dosłownie a „parę” naprawdę znaczy między 2 a powiedzmy 6. Chodzi również o to, że generuje próbkę bardzo odbiegającą od rozkładu w danych treningowych (żeby już zostawić tę nieszczęsną reprezentatywność w spokoju). Poprosisz o miasto w Europie? Z jakiegoś powodu akurat co druga odpowiedź to „Barcelona”. Pozostałe odpowiedzi to Praga, Lisbona i raz udało mi się dostać Paryż.”
1. Nie mamy pojęcia czy to głupota llma czy to menago zarządził „spróbujmy podbić wyniki finansowe przez marketing szeptany miejscówek turystycznych” i po prostu dołożyli nakładkę spamową po jakichś ciasteczkach.
2. To jest błędna ekstrapolacja, że llm z którego korzystam jest jeden, jakiś, albo „mój”. Tak samo jak z dużą ilością szmelcu online od korposów, naprawdę mamy zerowe pojęcie o tym co pozmieniali pod maską w tym konkretnym uruchomieniu albo jakie A/B właśnie na nas robią.
@Juliusz Kopczewski
„Poprosisz o miasto w Europie? Z jakiegoś powodu akurat co druga odpowiedź to „Barcelona”. Pozostałe odpowiedzi to Praga, Lisbona i raz udało mi się dostać Paryż.”
No ale jest to akurat coś co ludzie też robią. Gdy dostajemy pytanie to po pierwsze sami robimy ukryte założenia – np. Polak zapytany o miasto w Europie uzna, że chodzi o „w pozostałej części Europy, poza Polską” – a po drugie sięgamy po najpopularniejsze, najłatwiej budzące skojarzenia rzeczy. My też tworzymy w głowach takich ograniczony zbiór odpowiedzi, w dodatku ustawiając go wg jakichś kryteriów w ciąg. Oczywiście jest nas dużo więcej a nasze skojarzenia dynamicznie się zmieniają bo żyjemy w rzeczywistości na którą reagujemy i jeśli będziemy w wiadomościach ciągle słyszeli o jakimś konkretnym mieście to pewnie podskoczy ono w rankingu skojarzeń.
Dlatego zapytani o miasto w Europie ludzie też odpowiedzą pewnie „Barcelona”, „Paryż” czy „Berlin” a nie „Rijeka” albo „Żyrardów”. Chociaż tutaj jeszcze spodziewam się pewnej różnorodności. Ale zapytaj o miasto w Hiszpanii i jestem gotowy się założyć, że dwie najpopularniejsze odpowiedzi – bijące wszystkie inne na głowę – to będą „Barcelona” i „Madryt”, a nie np. „Pampeluna” czy „Toledo”.
Sam model postępowania nie jest zatem dziwny ani nawet obcy ludziom. I dałoby się go łatwo obejść dając odpowiednie złudzenie nawet w przypadku LLMów np. wprowadzając im taką modyfikację, żeby dobierały dane wg różnych kluczy, losowo. Tworzysz im powiedzmy 20 „osobowości, jedna daje standardowe odpowiedzi, druga pomija najpopularniejszą i leci z kolejnymi, trzecia pomija 10 najpopularniejszych, etc. Tylko czy ktokolwiek tego oczekuje i w ogóle uznaje to za problem, który trzeba rozwiązać? Wydaje mi się, że nie. Że raczej przerzucimy to na użytkowników, nie będziemy zwiększać losowości tylko powiemy, że jak chcesz coś innego to doprecyzuj prompta.
Co do „z jakiegoś powodu” – osobiście podejrzewam, że chodzi o popularność odpowiedzi. Im jakiejś odpowiedzi jest więcej w zbiorze danych tym większa szansa, że zostanie wyłowiona – to w ogóle naturalny mechanizm – ale może też być tak, że z tego powodu dostaje większą wagę czy priorytet, trafia na początek ciągu gdy go segregujemy. A że więcej się pisze o Barcelonie i Paryżu niż o Wałbrzychu czy Granadzie, to zarówno człowiek jak i LLM łatwiej te pierwsze „skojarzy”. To może być nawet oczekiwane działanie, ludzie tak by kojarzyli więc LLM podsuwa im podobne odpowiedzi.
Co oczywiście oznacza, że sprowadzamy wszystko do popularności, AI świetnie się więc nadaje do szukania popularnych rzeczy. I wręcz przeciwnie jeśli chodzi o rzeczy niszowe, bo one z definicji lecą na drugi koniec ciągu. Żeby je uzyskać, trzeba eliminować w odpowiednio dobranym prompcie wszystko co od nich popularniejsze.
@redezi
„o tym co pozmieniali pod maską w tym konkretnym uruchomieniu albo jakie A/B właśnie na nas robią.”
To jest cecha każdego LLM, przynajmniej póki co. Nie tylko niepożądana cecha ale wręcz jeden z frontier research problems, na którym zawieszone jest parę zastosowań, które AI laby akurat bardzo by chciałyby mieć. Między innymi chodzi o zastosowania do tworzenia syntetycznych danych.
Poza wszystkim A/B testowanie LLM jest mocno ograniczone kosztami ich serwowania i trenowania. Znowuż to brzmi jak jakieś kalki w rozumowaniu z tradycyjnych web serwisów.
@wo
„Ciekawe czy jest jakiś wyspecjalizowany LLM do odcyfrowywania dziewiętnastowiecznej cyrylicy (hm, Ausir może wiedzieć?.”
Rzeczywiście istnieją specjalne modele AI (nie tyle „LLM”) do odczytu dawnej cyrylicy, raczej płatne.
@Piotr Kapis
„Po wygenerowaniu można spokojnie to ściąć do „pokaż top 5”.”
I teraz już sugerujesz, że można młotka użyć jak śrubokrętu. Otóż nie tak „spokojnie”, bo w „top 5” algorytm może umieścić dysponujących największym majątkiem Panów Tadeuszów z listy XXX najbogatszych Polaków, a pominąć jakiegoś tam młodzieńca z Soplicowa.
> To jest cecha każdego LLM, przynajmniej póki co.
Albo otwierasz openrouter.ai i robisz A/B testy na nich samych, ostatecznie instalujesz ollama i ściągasz modele z huggingface.
@ergonauta
z tych odcinków, kiedy trafiali do Egiptu.
Asteriks gladiator i Egipcjanin imieniem Kortenis. Hieroglify to jeden z running gagów całego zeszytu.
A co do przydatności AI to obawiam się że wkrótce zobaczymy masow testowanie jej jako narzędzia niszczenia Wikipedii od środka zalewem fejkowych edycji. Muskoidy kolejny raz wzięły sobie ostatnio Walesa na celownik. Guardian zrobił z Jimmym wywiad żeby promować jego autobiografię i brzmi on tak jakby był spokojny o przyszłość, ale ja tam widzę niebezpieczny potencjał generowania fejkowych źródeł których odsiewanie będzie coraz bardziej upierdliwe.
Co do pytania o użyteczne zastosowania to moja połowica używała AI żeby wygenerować sobie wizualizacje potencjalnych opcji wykończenia wnętrz kiedy robiliśmy remont. Efekty z mojego punktu widzenia były takie sobie, ale pomagały wyznaczyć sobie jakieś ogólne tendencje co do funkcjonalnego układu, czy zestawień materiałów, kolorystyki itp. Wiadomo że najlepiej byłoby skorzystać z wiedzy i doświadczenia architekta wnętrz, ale przy naszym budżecie skończyłoby się pewnie na zestawie ładnych wizualizacji które ewentualnie realizowalibyśmy przez następną dekadę, a tak to mieliśmy jakieś zarysy które można było zestawić z obecnym katalogiem Ikei. Łazienkę jednak zaprojektowała nam profesjonalistka w salonie łazienek i ten jej fikuśny CAD po prostu wygenerował na koniec gotowe zamówienie dla sklepu – gres, armatura, szafki, ręcznikowiec itp. Nawet jeśli AI teoretycznie by to potrafiło to jednak bałbym się że skończę szukając płytek o nieistniejącym odcieniu czy formacie, albo z jakąś chińską armaturą która rozleci sie po roku, o ewentualnych problemach z połączeniami instalacji nawet nie wspominając.
W moim finansowo-księgowym wycinku korpoświata zaś, AI to póki co najwyżej podpytywanie copilota o jakieś rozwiązania automatyzacyjne, generowanie korpobełkotu do kwartalnych prezentacji i marzenia managementu że można zastąpić rzeszę analityków i żuczków norających w danych takich jak ja jakimś automatem do tworzenia kwartalnych forecastów. Póki co jednak efekty są takie se, bo dane wejściowe mają sporo różnego szumu związanego ze zmianami standardów księgowych, definicji KPIs, przetasowaniami w geograficznym układzie różnych spółek, efektami różnych M&A itp. Po prostu nie można brać surowych cyfr at face value bez kontekstu, który ciężko jest skwantyfikować. Więc o ile w ogólnych zarysach kilku bazowych KPI AI potrafi wylądować w miarę blisko produktu tych rzeszy przeżuwaczy cyferek, to w szczegółach brzmi to jak stek halucynacji i pobożnych życzeń. Po prostu elementów układanki jest za dużo i, podobnie jak w przykladach @WO powyżej ludzka niedoskonałość, bałaganiarstwo, niekonsekwencja dodatkowo utrudnia rozsądne wnioskowanie. Pytanie jednak brzmi: czy te narzędzia są w stanie osiągnąć punkt w którym będą z punktu widzienia tych wszystkich CFOs good enough żeby zwolnić połowę działu a drugie pół przeszkolić wyłącznie w promptowaniu i wygładzaniu ewidentnych bzdur?
@ergonauta
„I teraz już sugerujesz, że można młotka użyć jak śrubokrętu. Otóż nie tak „spokojnie”, bo w „top 5” algorytm może umieścić dysponujących największym majątkiem Panów Tadeuszów z listy XXX najbogatszych Polaków, a pominąć jakiegoś tam młodzieńca z Soplicowa.”
Oczywiście, że może. Jeśli ktoś postawi instancję LLMa którą nakarmi książkami telefonicznymi i innymi danymi teleadresowymi, ale nie wrzuci tam klasyki polskiej literatury, to nawet byłoby dziwne, gdyby było inaczej.
W przypadku różnych korporacyjnych LLMów będzie zapewne na odwrót i nawet podejrzewam, że wiem dlaczego. Otóż dlatego, że nawiązań do dzieła Mickiewicza w dostępnych danych jest wielokrotnie więcej niż dla dowolnego Tadeusza, nawet z listy najbogatszych Polaków.
To samo zrobisz gdy zapytasz o Pana Tadeusza jakieś dziecko które jeszcze nie przerabiało tego jako lektury w szkole i nie pochodzi z domu w którym o literaturze się dużo rozmawia. Zacznie się zastanawiać o którego pana Tadeusza może ci chodzić.
Kwestia tego jaki algorytm się stosuje i jaką bazą wiedzy karmiło podmiot który pytamy. W przypadku dziecka to kwestia tego, że jeszcze tej informacji nie zaciągnęło.
LLM też nie wie o którego Tadeusza ci chodzi. Ale gdzieś tam w trakcie swojego istnienia odpalił swoje algorytmy i metody statystyczne przetwarzając bazę wiedzy i mickiewiczowski Pan Tadeusz wyskakiwał najczęściej, więc trafia na początek ciągu odpowiedzi które może wygenerować takie zapytanie.
Moje „spokojnie” dotyczyło tego, że jakikolwiek zbiór odpowiedzi byś sobie nie wybrał, nie jest nawet istotne czy będzie prawdziwy czy nie, to go segregujesz wg jakiegoś klucza. Co pozwala potem wybrać odpowiedzi, ponownie wg konkretnych kryteriów, z których „weźmy pierwsze X” jest najprostszym. Jak byś się nie starał to pewną liczbę odpowiedzi musisz jakoś ułożyć w porządku. Nie tylko komputery tak mają, ludzie też, tylko wymyślamy wielowymiarowe porządki.
@redezi
„1. Nie mamy pojęcia czy to głupota llma czy to menago zarządził „spróbujmy podbić wyniki finansowe przez marketing szeptany miejscówek turystycznych” i po prostu dołożyli nakładkę spamową po jakichś ciasteczkach.”
To jest, oczywiście, dodatkowa warstwa. Nie wiemy co do LLMa zostało dołożone i jakie ma priorytety. Więc do tego, że sobie same dane dobiera ze zbiorów wg nieznanych algorytmów można dołożyć jeszcze manipulacje właścicieli. Nic nowego, sponsorowane wyniki wyszukiwania w google były już dawno temu.
„2. To jest błędna ekstrapolacja, że llm z którego korzystam jest jeden, jakiś, albo „mój”. Tak samo jak z dużą ilością szmelcu online od korposów, naprawdę mamy zerowe pojęcie o tym co pozmieniali pod maską w tym konkretnym uruchomieniu albo jakie A/B właśnie na nas robią.”
Ale nie chodzi o to, że każdy LLM działa tak samo – nie sądzę by ktokolwiek tak twierdził – tylko że „dla danego X, które spełnia konkretne warunki, prawdziwe jest że…” czyli konkretna instancja LLMa (model, wersja, baza wiedzy, etc.) Jak sobie postawisz własnego LLMa to on będzie osobną instancją. I taka instancja zachowuje się już – jeśli ta cała kolapsacja ma miejsce – przewidywalnie, tzn. zwraca wyniki podobne dla tych samych zapytań, nie losowe.
Tylko czy to jest dziwne? Ludzie mają tak samo! Jeśli powiesz człowiekowi „O jakich słynnych Polakach warto poczytać?” to jeśli trafisz na WO pewnie dostaniesz odpowiedź, że o Lemie albo Koperniku. I nieważne czy to pytanie zadasz mu ty, ja czy jakiś dziennikarz podczas wywiadu. Jeśli chcemy innej odpowiedzi to musimy albo doprecyzować pytanie „O jakich słynnych Polakach, ale nie o tych dwóch” albo zapytać kogoś innego.
Oczywiście ludzie to nie LLMy, ale mechanizm jest tutaj podobny – mamy swoje ciągi skojarzeń budzących się przy postawionym pytaniu, jakoś je porządkujemy i podajemy w odpowiedzi to, co wydaje nam się najbardziej odpowiednie. Co oznacza, że regularnie będziemy odpowiadać podobnie na te same pytania. Pod tym względem dana instancja LLMa jest jak człowiek – o pewnym poziomie wiedzy i jakoś poustawianych skojarzeniach. Inna instancja może mieć inne priorytety albo dostęp do innej wiedzy.
@wo
„Ale wgranie ich amerykańskiej korporacji która nie szanuje praw autorskich nie wchodzi dla mnie w grę”
Do zastowań w RAG nie jest potrzebny topowy model. Z tego co mi wiadomo, można spokojnie osiągnąć przyzwoite efekty przy pomocy modeli, które da się odpalać lokalnie. Osobiście się tym nie bawiłem, więc konkretnych parametrów potrzebnego sprzętu nie podam z głowy. Podobno ze względu na ML-owy procek, akurat Mac się do tego dobrze nadaje. Ja niemakowy, ale jak rozumiem gospodarz tak.
@jk
„Z tego co mi wiadomo, można spokojnie osiągnąć przyzwoite efekty przy pomocy modeli, które da się odpalać lokalnie. ”
OK, zatem jeśli znów będę w takiej sytuacji (tego akurat nie mogę wykluczyć), podniosę swoje kąpetęcje co do AI nadającej się do odpalania lokalnego. Swoją drogą, ciekawe jak by sobie radziła z tymi listami Lema, które są w kilku językach na raz (a w dodatku pełne intencjonalnych makaronizmów i przekręconych nazwisk typu „Machooyek”).
@WO
„a bo nie znasz płatnej wersji”
Autor zaginionego arcydzieła 'Pół wieku trollowania’ napisałby, że na darmowej to sobie możesz najwyżej skernelować kompila.
„a bo musisz go przez wiele lat szkolić by zaczął działać tak jak potrzebujesz do jednej konkretnej książki, a potem od zera do następnej”.
Rzeczywiście LLM samo w sobie nadaje się głównie do rozwiązywania problemów już rozwiązanych, i nigdy nie napisałoby w reklamie ręczników “The ships hung in the sky in much the same way that bricks don’t.” Natomiast to szkolenie które opisujesz brzmi jak finetuning modelu – rzeczywiście mozolny i nieracjonalny nawet do większości zastosowań komercyjnych (nowszy model stockowy będzie lepszy szybciej niż zdążysz znaleźć ponowne zastosowanie dla poprzednio dostrojonego). Sprawdzone w boju praktyczne rozwiązanie to właśnie embedding, trwa poniżej minuty dla dokumentu (pewnie potrzebujesz też przekombinowanego prompta, ale takowy da się tekstowo przekopiować i łatwo zmodyfikować).
„wgranie ich amerykańskiej korporacji która nie szanuje praw autorskich nie wchodzi dla mnie w grę”
Technicznie nic nie stoi na przeszkodzie żeby używać tego lokalnie (niestety póki co trzeba samemu zgzipować grepa).
„może kiedyś będę miał taką sytuację, że będę czegoś szukać w zdigitalizowanym archiwum przypominającym archiwum Dantyszka (że i tak wszystko w domenie publicznej)…”
Accademia dei Lincei czy Royal Society powstały długo po tym jak już wszyscy się powygłupiali w 'towarzystwach’ typu Bibones et Comedones.
Zachęciliście mnie do sprawdzenia.
Zapytanie w chatgpt „Pokaż hotele w odległości mniejszej niż 2 kilometry od [wskazanego miejsca]” zwraca listę hoteli, które faktycznie są dość blisko (tak do 20 kilometrów).
Przy niektórych hotelach podano „Hotel jest blisko [skrzyżowania], więc zapewne jest także blisko punktu docelowego”, ale akurat zapewne nie jest.
Dokładna lokalizacja tych hoteli jak i miejsca, o które mi chodziło są publicznie dostępne – np. w mapach Gugla.
Ale tego akurat chatgpt nie potrafi zrobić, zamiast tego kończy sugestią – „wybierając hotel sprawdź odległość”.
@ps
„Autor zaginionego arcydzieła 'Pół wieku trollowania’ napisałby, że na darmowej to sobie możesz najwyżej skernelować kompila.”
No właśnie! To była zawsze standardo wersja linuksiarzy, że „a bo nie przetestowałeś najnowszej wersji” (albo „pełnej i płatnej”). Praktycznie zawsze była to bzdura i ta płatna/nowsza była równie dodupna jak ta która mnie rozczarowała w testach.
A przeformułuję pytanie: czy ktoś może doradzić jakiś system AI działający całkowicie offline (nawet przy airwallu)? Zwłaszcza taki mogący „przejrzeć skany korespondencji”?
@janekr
„Zapytanie w chatgpt „Pokaż hotele w odległości mniejszej niż 2 kilometry od [wskazanego miejsca]” zwraca listę hoteli, które faktycznie są dość blisko (tak do 20 kilometrów).”
Noż kurna, ale od stu lat taka opcja jest w bookingu, a w dodatku wyświetla wyniki jako mapę.
Ostatnio byłem na targach telewizyjnych i AI pojawia się bardzo często. Jednak ze względów na prawa autorskie i tajność odchodzi się od polegania na dużych LLMów i stara się stawiać rozwiązania lokalne:
– rozwiązania speech to text i tłumaczenie na wiele języków
– blurbizacja klipów, tworzenie pasków (razem z tłumaczeniami)
– proste opisy zdjęć i materiałów wideo, zarówno w celach dostępności jak i szeroko pojętej indeksacji
To są rzeczy jakimi do tej pory zajmowali się stażyści lub ktoś w wolnym czasie. Jednak skoro można do tego zaprząc maszynę za <100k PLN to zwróci się ona w skończonym czasie, jego długość będzie zależała tylko od skali organizacji.
W moich rzeczach około zawodowych to znowu:
– tłumaczenia krótkich, prostych tekstów: coś dłuższego to spore ryzyko konieczności przeróbki, ale tytuły, teksty alternatywne, proste komunikaty organizacyjne – do tego mniejsze modele świetnie się nadają, już nie wspominając o ChatGPT i pokrewnych
– generowanie tekstów alternatywnych, w większej instytucji trudno to obrobić ludźmi bez dużych nakładów organizacyjnych/finansowych a mus jest: od 2019 wszystkie publiczne a od 2025 wszystkie komercyjne muszą spełniać wymagania dostępności z czego teksty alternatywne to najbardziej pracochłonna rzecz
– proste zadania programistyczne – jak obmyślę pod prysznicem schemat zachowania programu/funkcji to później tylko wklepać do chata i dostanę coś co mniej więcej działa, w moich zastosowaniach to wystarcza, gorzej z modyfikacją, trzeba wtedy iść funkcja po funkcji bo większych kawałków LLMy nie ogarniają; dla osób bardziej sprawnych szybciej może byłoby z palca, dla mnie jest to nie tylko ominięcie najnudniejszej dla mnie części programowania, ale i znaczące przyspieszenie pracy
Ogólnie w dyskusji widzę problem bąbelka: gospodarz i komentujący to osoby o dużym kapkulcie i zdolnościach logicznego myślenia. Obracają się też w takich kręgach, ale jak już ktoś zauważył są to umiejętności o wiele rzadsze niż się wydaje. 99% to nie jest przesada, a raczej niedoszacowanie.
Polski LLM: problemem nie jest 'polskość'. ChatGPT i inne zachodnie z polskim jako interfejsem sobie radzą, chińskie modele miewają z tym problemy, ale nie są to kwestie dyskwalifikujące. Braki są w danych – dopóki nie będą polskie źródła powszechnie dostępne, dobrze indeksowane (dostępność taka jak zdefiniowana w KRI/WCAG świetnie też pomaga LLMom) to nawet 10 'fabryk AI' między Bałtykiem a Tatrami będzie jedynie przetwarzać dane z amerykańskich uniwersytetów gdzie pełna otwartość jest wymogiem otrzymania funduszy federalnych. Kwestie MCP pomijam to sam pomysł tego protokołu to nieśmieszny żart.
Stąd jest też różnica między danymi na temat samorządów a archiwum Dantyszka. Procedury wymagają by dane/procedury/itd. samorządowe w Polsce były jawne, w dodatku kłania się wspomniana ustawa z 2019 r. Brak informacji w chatach na temat archiwum Dantyszka to skutek złej digitalizacji/dostępności tego archiwum. Nie można tego też zrzucać na brak zainteresowania – crawlery OpenAI to najbardziej agresywne wysysacze w sieci – na granicy malware. Interesują się wszystkim, wszędzie, non-stop. Można je odciąć, ale trzeba się zastanowić czy tego naprawdę chcemy?
@vvaz
„Obracają się też w takich kręgach, ale jak już ktoś zauważył są to umiejętności o wiele rzadsze niż się wydaje. 99% to nie jest przesada, a raczej niedoszacowanie.”
Być może, natomiast ja po prostu szukam narzędzia DLA SIEBIE. Moje książki są nawet nie dla 1%, tylko dla <0,1%. Serio, sprzedaż 40.000 egzemplarzy to dla mnie byłby sukces nad sukcesy. Ja generalnie nie robię (i nie zamierzam robić) w generalnej ludożerce, dlatego nie interesują mnie clickbaity i tzw. "modne tematy".
Słyszę czasem od entuzjastów AI określenia typu "pogłębiony research". Ta rozmowa pomogła mi zrozumieć nieporozumienie. Dla mnie "pogłębiony" ("dig deeper") to taki, ktory wychodzi POZA pierwsze trafienia z gugla. Tymczasem wygląda na to, że AI pozwala najwyżej na, powiedzmy, inne posortowanie trafień z gugla, ale dla mnie to nie jest "głębiej", przeciwnie, to nawet jeszcze bardziej powierzchowne. Coś jak ludzie przekonani, że zrobili "głęboki risercz" bo wysłuchali 5 podkastów, a nie tylko jednego.
""Dantyszka to skutek złej digitalizacji/dostępności tego archiwum. "
Kurna, nie wiem czy "złej". Biblioteki cyfrowe przeważnie mają jakieś CAPTCHA - moim zdaniem powinny mieć.
@notka
Jak dotąd nie odczułem potrzeby korzystania z LLM-ów (wyjąwszy takie rzeczy, jak Google Translate, żeby wyświetlić zdania typu „poproszę pilaw z fasolą i kawę, faleminderit!”) i mam szczerą nadzieję, że taki stan rzeczy potrwa jak najdłużej.
Co do głosów w dyskusji, wspominających o zgównowaceniu wyszukiwarek: używam DuckDuckGo i póki co nie narzekam; przy którejś z aktualizacji dostałem nienachalne pytanie o „wzbogacenie” wyników wyszukiwania, w stylu: „czy dolać lizolu do kawy, bo mamy, gdyby ktoś chciał? nie? bardzo dobrze, nie było tematu”, ale to na razie wszystko.
@WO
'system AI działający całkowicie offline (nawet przy airwallu)? Zwłaszcza taki mogący „przejrzeć skany korespondencji”?’
Znam tylko jeden kompleksowy a w miarę gotowy, jaki ma jednocześnie AI, OCR i możliwość średnio uciążliwego skonfigurowania trybu offline:
link to github.com
@wo
„ta płatna/nowsza była równie dodupna jak ta która mnie rozczarowała w testach.”
Ryzykując bana, rozumiem, że testował Pan też u kolegi wersję „Thinking”, czyli z chain of thought – dowolnego dostawcy? Teoretycznie jest dostępna również za darmo, niemniej jest wtedy albo 1. (ChatGPT) schowana za rozdzielnikiem, który decyduje na podstawie swojego widzi mi się czy dane zapytanie zasługuje na chain of thought. Albo 2. ma bardzo ograniczoną liczbę dostępnych zapytań (Claude). UX też zdecydowanie ma zniechęcać do użycia, bo po stronie dostawcy generuje więcej kosztów.
Może to brzmi sekciarsko, ale będę się upierał, że jest przepaść między wersją chain of thought i nie chain of thought. Najlepszym argumentem, jaki mogę podać, jest research François Chollet, którego jednak zaliczałbym do LLM-owych sceptyków. Modele chain of thought mają po prostu dużo lepsze właściwości generalizacyjne. Nie wykładają się na głupich problemach typu Reversal Curse, itd.
@JK
„Ryzykując bana, rozumiem, że testował Pan też u kolegi wersję „Thinking”, czyli z chain of thought – dowolnego dostawcy?”
Nie pytałem, ale mowa o entuzjaście – czyli jak można oczekiwać, że dopłaca za wszystkie opcje (tak jak ja kupując samochód, bo to z kolei moja mania).
@Piotr Kapis
„Jak byś się nie starał to pewną liczbę odpowiedzi musisz jakoś ułożyć w porządku. Nie tylko komputery tak mają, ludzie też, tylko wymyślamy wielowymiarowe porządki.”
Oczywiście, że tak. I oczywiście, że komputery porządkują szybciej i większą ilość gratów. I oczywiście, nie rodzą się z tym, tylko się tego uczą – też jak my. Dlatego jako osobom porządkująco/sprzątającym należałyby im się szacunek i uznanie, gdyby nie ta przechwałkowatość: ja tu nie tylko sprzątam. Otóż na razie tylko. A jak coś więcej, łatwo się z tego robi małpa w kąpieli.
@WO
„Być może, natomiast ja po prostu szukam narzędzia DLA SIEBIE.”
I nigdy, ale to przenigdy nie masz sytuacji, że chciałbyś przeczytać artykuł w języku, którego albo nie znasz, albo znasz na tyle słabo, że DeepL będzie tu bardzo pomocny? Nigdy nie chcesz sprawdzić własnoręcznie napisaego tekstu w obcym języku pod kątem poprawności gramatycznej i stylistycznej?
@wo
No to jest raczej sytuacja, w której kolega ma piętrowy garaż, w którym stoją różne samochody. Wciska się przycisk i wyjeżdża jeden z nich. Zatem pytanie dotyczy tego, czy akurat wyjechała nowa Skoda Octavia w full pakiecie czy nie wiem… Maybach (?).
@kot
„I nigdy, ale to przenigdy nie masz sytuacji, że chciałbyś przeczytać artykuł w języku, którego albo nie znasz, albo znasz na tyle słabo, że DeepL będzie tu bardzo pomocny”
Oczywiście używam Google Translate (a nawet tłumaczenia wbudowanego w przeglądarkę).
” Nigdy nie chcesz sprawdzić własnoręcznie napisaego tekstu w obcym języku pod kątem poprawności gramatycznej i stylistycznej”
Patrząc na to, jakie ten cybergłupek ma lekkie pióro, już wolę mieć niepoprawnie niż sprawdzone przez niego.
> Maybach (?)
Srogie grzyby. Żargonowy termin to reasoning, skąd thinking models? I jest to nakładka na aktywacje, a nie ulepszenie samego modelu, a więc naprawdę bardziej Octavia i to w wersji z tym samym silnikiem. Można nawet wytrenować tak żeby zapisać to zachowanie bezpośrednio w wagach ale i to NIE zmienia trafności w modelu.
@WO
„Oczywiście używam Google Translate (a nawet tłumaczenia wbudowanego w przeglądarkę).”
DeepL robi to znacząco lepiej.
„Patrząc na to, jakie ten cybergłupek ma lekkie pióro, już wolę mieć niepoprawnie niż sprawdzone przez niego.”
Wyłośliwiając się trochę, ten cybergłupek robi to nie gorzej od niektórych autorów pewnej dużej ogólnopolskiej gazety, którym to zdarzało się niemal wprost przepisywać artykuły z Guardiana. Tak koślawie, że DeepL był lepszy jak tłumaczył z orginału. Więc to znowu kwestia kompetencji językowych, niedostępnych dla ogromnej części populacji. Nawet znami mi native speakerzy, którzy doskonale znają język czasem korzystają, bo jako korektor tekstu sprawdza się lepiej niż Word.
Wyobraziłem sobie opowiadanie dziejące się w tym mniej więcej czasie, kiedy zbudowano i wypromowano pierwszy kalkulator naukowy. Mam na myśli taki, który nie tylko umiał dodawać, odejmować, dzielić i mnożyć liczby naturalne ale także pozwalał zastąpić suwak logarytmiczny i tablice trygonometryczne. Bohaterem tej powieści widzę kogoś takiego jak Inżynier Karwowski. Nie ufa tej kalkulatorowej elektronice przy budowie Trasy Łazienkowskiej, więc wszystkie obliczenia kalkulatorowe weryfikuje obliczając je ponownie – analogowo. Tytuł: „Czy kalkulatory naukowe halucynują?” 😉
@kot
„DeepL robi to znacząco lepiej”
Być może, ale w takich sytuacjach nigdy nie chodziło mi o głębię literacką, po prostu o wyjaśnienie o co chodzi.
„Wyłośliwiając się trochę, ten cybergłupek robi to nie gorzej od niektórych autorów pewnej dużej ogólnopolskiej gazety, którym to zdarzało się niemal wprost przepisywać artykuły z Guardiana.”
No chyba nie mówisz o mnie? A tak poza tym no to jasne, że media upadają, dwaeścia filmów o tym zrobiłem.
@WO
„No chyba nie mówisz o mnie?”
No jasne że nie ty!
Ale jednak jak już zrzynają na bezczela a redaktor prowadzący udaje, że nie widzi, to weźcie to ludzie przetłumaczcie jakimś współczesnym inarzędziem, żeby dało się to jakoś czytać.
@izbkp
„Nie ufa tej kalkulatorowej elektronice przy budowie Trasy Łazienkowskiej, więc wszystkie obliczenia kalkulatorowe weryfikuje obliczając je ponownie – analogowo.”
Trochę obok, ale ten opis mi przywołał skojarzenia. Jest opowiadanie o tym jak pewien człowiek miał przymus sprawdzania wszystkiego kilkukrotnie i ten swój przymus przekazał komputerom odpowiedzialnym za autonomiczne sterowanie pojazdem kosmicznym. Co doprowadziło do olbrzymiej katastrofy. Chyba nie muszę na tym blogu mówić kto je napisał?
@unicod
„Srogie grzyby.”
No dobrze, to już jest casus dla samochodziarza, żeby podstawił taką markę i model samochodu, żeby był z innej lepszej klasy, ale żeby nie był przesadnie luksusowy. W sam raz na zapytanie do LLMa swoją drogą. Ja jestem niesamochodowy od pokoleń. Tak czy inaczej jest przeskok między chain of thought i bez. Wyrażony w moim anecdata. Wyrażony w bardziej obiektywnych kryteriach jak ARC-AGI. Wyrażony w zredukowanej częstotliwości potykania się o własne sznurowadła, jak na przykład w Reversal Curse i podobnych trywialnych metodach obrazujących bardzo niskie możliwości generalizacji u czystych LLM.
Podpowiedziałbym wszystkim dyskutującym, że warto sięgnąć po bloga Eda Zitrona i jego (potwornie długie miejscami) analizy odnośnie LLMów.
Z ważniejszych takeaway’ów, przede wszystkim – nie tylko w zasadzie wszyscy wiedzą, że to bańka i security fraud na całego, nie tylko korpo zaczynają zaciemniać ile wydały na AI, bo już widzą, jak to padnie, ale VC literalnie nie ma dość gotówki by dorzucać do pieca i w ciągu 5-6 kwartałów w tym tempie to fizycznie musi paść. A prawdopodobnie szybciej i potężniej.
Co mocno wpływa na dyskusje jak/po co (n)AI, bo za rok może się okazać, że poza tymi modelami stawianymi domowo, to nie za bardzo jest o czym rozmawiać. Inna sprawa, że pęknięcie bańki będzie tak bolesne prawdopodobnie, że niekoniecznie komukolwiek będzie się chciało gadać.
@izbkp
„Nie ufa tej kalkulatorowej elektronice”
Nie jestem pewien, czy to taka trafna analogia. Nie bardzo wiem, jak by można uzyskać sławny lemowski wynik 2+2=7 na kalkulatorze, nawet naukowym. (Chyba najbardziej LLM-ową akcją, jaką z kolegami uskutecznialiśmy na kalkulatorach – ja dorobiłem się Casio FX bodaj 82 – było zapisanie w pamięci liczby 71830, a następnie wykonywanie serii zaimprowizowanych pseudoobliczeń na liczbach podawanych na bieżąco przez ochotnika-nieszczęśnika – miesiąc i dzień urodzenia, wzrost itp. – żeby następnie przycisnąć Memory Recall i pokazać delikwentowi wyświetlacz do góry nogami jako wynik kalkulatorowej analizy osobowości; wychodziło coś w rodzaju napisu DEBIL).
@WO:
„A przeformułuję pytanie: czy ktoś może doradzić jakiś system AI działający całkowicie offline (nawet przy airwallu)? Zwłaszcza taki mogący „przejrzeć skany korespondencji”?
link to ollama.com + jakiaś integracja. W moim przypadku główny use case to programowanie, więc https://zed.dev, ale może w twoim przypadku goła ollama da radę.
Odpowiadając na pytanie co do używania – ja używam ostatnio sporo jakos wsparcie przy pisaniu kodu. Głównie do kawałków, które owszem, sam bym napisał, ale mi się nie za bardzo chcę na to tracić czas – szkielet do wsadzenia unit testów, jakiś skrypt automatyzując odpalanie kilku różnych narzędzi. W tej roli sprawdza się znakomicie – przyśpiesza nudne kawałki pracy zostawiając więcej czasu na tzw. mięso. Tak więc w moim przypadku raczej ewolucja niż rewolucja.
@jhb
„Ja go używam w roli asystenta researchu do mojej pracy samorządowej.”
Proceed with caution! Ja też, ale przynajmniej raz zaliczyłem dużego babola. Pytałem o kwestie prawne dotyczące lokalizacji aptek, ale bez podawania aktu prawnego, no bo to też mogło być gdzieś w rozporządzeniu, a ten segment prawa to była dla mnie czarna magia, no i dostałem halucynację. Na szczęście, jako żem dociekliwy, skontrolowałem to zwykłym guglem i zwykłym, ludzkim artykułem.
Widziałem też w pisemnych dyskusjach z mieszkańcami, że używają ChataGPT, bo charakterystyczna składnia i emotikony, i niejednokrotnie było tak, że podawali rozwiązania idące w ogólnie dobrym kierunku, ale w praktycznych szczegółach niewykonalne, np. przy walce z turystyzacją jeden mi zaproponował „zapisanie w decyzji lokalizacyjnej, że: minimum 80-90% lokali mieszkalnych musi być przeznaczonych na pobyt stały mieszkańców, a nie jako lokale usługowe lub turystyczne”. Tylko że to sądy podważają jako klauzule abuzywne (inna sprawa, czy dobry prawnik by tego nie wybronił, no ale wiadomo, kto więcej wydaje na prawników). Ale ChatGPT nie przeszukuje orzeczeń sądów, bo na to za dużo koksu w serwerowni idzie.
I to jest wg mnie – co prawda jestem kompletnym informatycznym laikiem – jeden z głównych problemów LLM. One strasznie oszczędzają na deep search, jak choćby podane przez @wo biblioteki cyfrowe. Może wersje płatne są pod tym względem lepsze, ale podane wyżej przykłady nie zachęcają bym rzucał hajsem. A przecież technicznie potrafią, bo np. ChatowiGPT wrzuciłem XVII-w. ręczną frakturę na obrazku i poradził sobie fantastycznie.
To jest też szerzej problem pseudo-postępu obecnej ery patokapitalizmu. Rzeczywisty postęp wymaga na początku dużych kosztów i zwrotu nie wiadomo kiedy, więc kapitalista tego nie zrobi. Zrobi to tylko państwo. Tylko państwo mogłoby zbudować AI, która wciągnie wszystkie biblioteki cyfrowe i na dokładkę odczyta skany pismem ręcznym. Dla badań z tego jest zastosowań legion, ot choćby stworzenie dla Gdańska bazy ludności na podstawie Adressbücher od XVIII w. do 1945 r. – wspaniałe źródło do badań biografistycznych, demograficznych, gospodarczych itp.
Tymczasem ja się kulam ze śmiechu słysząc, że LLM takie smutniutkie, bo pozjadało cały internet i nie ma skąd wiedzy brać, trzeba by je do okularów podpiąć, żeby interakcje z rzeczywistości brało (czytaj: dane dla reklamodawców).
Wracając do pytania @wo – same LLM to póki co taki gugiel i Pan Spinacz (xD) na sterydach. Ostatnio mi bardzo ładnie napisał wniosek o informacje nt schronów w dzielnicy. A i tak musiałem poprawiać.
Pewnie gdyby @wo nadal działał w „S”, to by miał z tego kejsy wyciągane z soszjalów. Sam kiedyś byłem przewodniczącym KZ „S” w moim poprzednim zakładzie pracy i zastosowania widzę. Przełom i nową erę? Nie.
Najbardziej to te obrazki. Już nie trzeba szukać „znajomego grafika” żeby na sosziale zilustrował jakąś duperelę albo przygotował plakat na festyn.
Który potem i tak musiałem poprawiać…
@tl
„Pewnie gdyby @wo nadal działał w „S”, to by miał z tego kejsy wyciągane z soszjalów.”
Po co? Przecież właśnie dlatego wybraliśmy „S” jako centralę, żeby mieć wsparcie prawnicze od prawdziwych prawników. Umarłbym ze strachu walcząc z korporacją na podstawie tego co sobie wyguglałem (albo AI mi napisało).
„Najbardziej to te obrazki. Już nie trzeba szukać „znajomego grafika” żeby na sosziale zilustrował jakąś duperelę albo przygotował plakat na festyn.”
Wyguglany obrazek na otwartej licencji zawsze będzie lepszy od tego paskudztwa z sześcioma palcami.
@wo
OK, wy mieliście jednak bardziej stypizowaną branżę, my tak niszową (biblioteka naukowa PAN – rzecz pod resortem nauki, ale mająca więcej wspólnego z kulturą), że prawnicy związkowi, choć rzeczywiście pomagali (znaleźli np. furtkę prawną, jak przywrócić stopień bibliotekarza dyplomowanego – udało się), to mało było osób z typowo insajderską wiedzą, zaś w innych bibliotekach PAN „S” była tylko w jednej (innych zz w ogóle brak), więc i poziomkowanie niezbyt. Owszem, nie wyciągałbym z ChataGPT opinii prawnej metodą Ctrl C/Ctrl V, ale argumenty dla PAN w kwestii np. pracy w magazynie by się jakieś znalazły. Gugiel słabo przeszukuje socjale, ChatGPT akurat nieźle, znacznie lepiej niż biblioteki cyfrowe.
Co też jakże wiele mówi…
@Piotr Kapis
„Jest opowiadanie o tym jak pewien człowiek miał przymus sprawdzania wszystkiego kilkukrotnie i ten swój przymus przekazał komputerom odpowiedzialnym za autonomiczne sterowanie pojazdem kosmicznym.”
Jednak w tym opowiadaniu – i u tego programującego, czyli u trenera – akcent był położony na „przymus sprawdzania wszystkiego”, a nie na „przymus sprawdzania kilkukrotnie”. No i wychowankowie – jak ich nauczył trener – próbowali zmierzyć się liczbowo ze Wszystkim Co Może Się Zdarzyć.
@Artur Król
„(…) w zasadzie wszyscy wiedzą, że to bańka (…)”
Też tak sądzę – tylko napompowanie giełdy a istnienie zastosowań to są jednak dwa różne tematy. Po pęknięciu bańki dotcomów nie zniknęły zakupy online, i po pęknięciu bańki AI nie znikną LLM-y.
@pak4
„Bardzo specyficzny przykład — osoby bardzo doświadczone, korzystające z konkretnego środowiska.”
Niestety, to prawda. W 2025 kompententne osoby pracujące w zakresie swojej specjalizacji to sytuacja specyficzna i wyjątkowa. Autorzy badania to rozumieją i wymieniają jako jedno z jego ograniczeń.
> problem pseudo-postępu obecnej ery patokapitalizmu. Rzeczywisty postęp wymaga na początku dużych kosztów
Kiedyś big techy były dla inwestorów pociągające ze względu na niski CAPEX czyli tanie skalowanie.
Fama trwa trwałością legend (a także brak alternatyw do inwestowania), ale to się skończyło wraz z AI. Capex wzósł 10-20 razy.
Naprawdę inwestują, i przecież już wystawiają garnuszek do państwa, bo wiedzą, że się nie zwróci. Trump wykazał troskę na samym począktu kadencji, silnie lobbują w UK. U nas nie udało się tylko przez mianę włady. PiS z Cieszyńskim zorganizował konferencę AIiazji wymiaru sprawiedliwości, Sankowski śpiewał o suwerennym polskim LLM, w czasie gdy Bielan miał klucze do wynajmowanego przez Ideas NCBR mieszkania.
Piramida nie zwróci się bez państwa wpłacającego jako ostatni. Najlepiej ilustruje to deal Oracle: w zamian za akcje przekazało OpenAI pieniądze które OpenAI przeznaczyło na wynajem chmury od Oracle. W wyniku czego akcje Larrego Ellisona wzrosły o równowartość zainwestowanej kwoty. Za kreację pieniądza księgowego z obietnic rozbudowy infrastruktury zapłacili ostatnio emeryci zainwestowani przez swoje fundusze w Enron.
„Piramida nie zwróci się bez państwa wpłacającego jako ostatni.”
Czyli odwrotnie niż to było w Złotej Erze Postępu. No tak to my na Marsa nie polecimy 🙁
@❡
„I jest to nakładka na aktywacje, a nie ulepszenie samego modelu, a więc naprawdę bardziej Octavia i to w wersji z tym samym silnikiem. Można nawet wytrenować tak żeby zapisać to zachowanie bezpośrednio w wagach ale i to NIE zmienia trafności w modelu.”
Co konkretnie rozumiesz przez pojęcie „nakładka na aktywacje”? Pytam, bo to zachowanie (reasoning) jak najbardziej jest zachowane w wagach.
Cała idea polega na tym, że przygotowujesz zbiór uczący z przykładami „rozumowania”. A więc mamy zestaw: pytanie/polecenie + zapis wzorcowego „rozumowania”. Następnie trenujesz model tak, by odtwarzał kroki rozumowania. Całość prowadzi do instancji problemu uczenia ze wzmocnieniem. W efekcie w wagach modelu jak najbardziej jest zakodowane zachowanie polegające na odtwarzaniu wzorców „rozumowania” ze zbioru uczącego. Pomijając luźne argumenty z Octavii i Maybacha, model po takim uczeniu owszem, jest lepszy od wyjściowego, bo skonsumował dodatkowe przykłady uczące przygotowane przez ludzi.
I taki istniejący już dziś LLM bez spinki zebrał by dla WO komplet materiałów, gdyby miał dobrze proindeksowane archiwa. A nie ma (o czym były już wpisy).
Odbieram dziś awizo. Tak z 75% kolejki to osoby płacące rachunki. Z racji metryki już nie załapali się przelew z apki. Mogło by to mieć i pozytywna stronę, gdyby w tej kolejce była jakaś socjalizacja. Ale nie – wszyscy stoją w zasadzie w ciszy. A wiek nogom nie pomaga.
Wiem oczywiście, że w pewnym momencie też odpadnę i zamiast llmować skrypta będę kernelować kompila. Ale czy jest sens aktywnie przybliżać ten dzień? Na dziś nie mam zbyt wiele zastosowań dla chatów. Głównie search. Incydentalnie prośba o listę błędów uk/us english (ale już bez odwagi prosić o korektę). Mimo to nie staram się aktywnie szukać powodów, by chatów unikać. Bo w scenariusz pufff i wracamy do 2019r. to nie wieżę. Choćby nie wiem jak rypło na giełdzie, technologia zostanie. A jak już będą na niej robić ekwiwalent smartfona, to wolałbym nie być tym, co sam rezerwował miejsce w kolejce do okienka gdzie kernelują kompila. Póki ogarniam, staram się trzymać jakiś incydentalny choćby kontakt.
Podsumowanie walnę na początku, bo wyszła ścianka tekstu: pięć testów, dwa to miał mi znaleźć tabelki, jeden to zrobić proste zadanie matematyczne, jeden to odszukanie serii gier, jeden to znalezienie i zestawienie dwóch tabelek. POLEGŁ NA KAŻDYM, JESZCZE PROPONOWAŁ DALSZE BOBROWANIE.
Asystent (m.a.).
===
Co do ChataGPT. Porobiłem właśnie test tej wersji darmowej.
1/ TEST PIERWSZY:
Prompt: „Zrób mi listę politechnik w Polsce. Uzupełnij ją o WAT i AGH”
Co wypluł: niekompletną listę. Pominął Politechnikę Morską w Szczecinie i Politechnikę Bydgoską (co najmniej). Udało mu się dopisać WAT i AGH, ale… nie zapytał, po co ma listę uzupełniać. Nie dorzucił ZUT-u do listy, ani nie wspomniał o nim poza listą.
Ocena z testu 1: szybciej i lepiej wejść na Wikipedię
2/ TEST DRUGI:
Promopt: „Wymień mi zawody prawnicze noszące togi oraz zawody pełnomocników zawodowych”
Co wypluł: do zawodów togowych dopisał notariuszy (niech mu będzie), nie dopytał o co mi chodzi z tymi „zawodami pełnomocników zawodowych”. Przy liście „togowej” pominął radców Prokuratorii Generalnej oraz sędziów TK. Przy liście pełnomocnikowej poprzestał na wymienieniu radców prawnych, adwokatów, rzeczników patentowych i doradców podatkowych. Nie do końca dobrze…
3/ TEST TRZECI:
Prompt: „Wymień mi trzy największe okręty Polskiej Marynarki Wojennej w sierpniu 1939, sposób ich pozyskania, długość. Uwzględnij hulki mieszkalne, okręty w remoncie i okręty pomocnicze jeżeli musisz”.
Co wypluł: za trzy największe uznał ORP Bałtyk, ORP Gryf i ORP Wilię. Poza Gryfem długości błędne, sposoby pozyskania powiedzmy, że dobrze (co prawda wiedział, że Bałtyk z Francji, ale podał błędną nazwę francuską), zupełnie nieproszony dopisał kolumnę o losie w 1939 roku (i znowu bzdury, Wilię internowali według niego w Talinie) oraz tabelkę z niszczycielami.
TEST CZWARTY:
Po niezbyt obiecującym początku (miał odgrzebać dwie tabelki, skrócić je oraz raz zestawić kilka informacji – spaprał to), przechodzimy do trudniejszego zadania…
Prompt: „Podlicz mi wynik serii transakcji na kontraktach futures na WIG20: 1/ we wtorek kupuję jeden kontrakt za 2800 pkt; 2/ w środę sprzedaję dwa kontrakty za 2900 pkt; 3/ w czwartek kupuję jeden kontrakt za 2850 pkt.. Wartość punktu kontraktowego znajdziesz na stronie GPW w Warszawie/WSE. Nie bierz pod uwagę kosztów prowizji, wielkości depozytu ani podatku”
Co wypluł… bzdury. Aż zacytuję:
„Dane wyjściowe
Mnożnik: 20 zł/punkt
Transakcje:
Wtorek: kupno 1 kontraktu za 2800 pkt
Środa: sprzedaż 2 kontraktów za 2900 pkt
Czwartek: kupno 1 kontraktu za 2850 pkt
Obliczenia
Wtorek: Pozycja długa 1 kontrakt przy 2800 pkt → koszt wejścia nie liczymy kosztów, ale dla orientacji: wartość kontraktu = 2800 × 20 zł = 56 000 zł
Środa: Sprzedaż 2 kontraktów przy 2900 pkt → wartość transakcji = 2 × (2900 × 20 zł) = 2 × 58 000 zł = 116 000 zł
Zysk dla 1 kontraktu, który był otwarty we wtorek (2800 → 2900): różnica 100 pkt × 20 zł = 2 000 zł
Ponieważ sprzedajesz 2 kontrakty, zysk = 2 × 2 000 zł = 4 000 zł
Ale uwaga: otworzono 1 kontrakt we wtorek, więc zakładam że drugi kontrakt został otworzony wcześniej lub był w pozycji — w uproszczeniu potraktujemy, że oba miały koszt bazowy 2800 pkt (choć realistycznie tylko jeden) → zysk = 4 000 zł.
Czwartek: Kupno 1 kontraktu za 2850 pkt → wartość = 2850 × 20 zł = 57 000 zł
Ta pozycja pozostaje otwarta — więc jej wynik nie jest zamknięty, zakładamy dla „wyniku serii” tylko zrealizowany zysk/stratę.
Wynik końcowy
Zrealizowany zysk: 4 000 zł
Otwarte zobowiązania (pozycja w czwartek) nie wliczona do zysku/straty, bo nie została zamknięta.
Wynik serii transakcji: + 4 000 zł”
I skomentuję te bzdury, co wypluł ChatGPT:
Tu mamy pierwszy przypadek, gdzie GPT musi się wysilić – zrozumieć, że w handlu futures jak najbardziej można posiadać ujemną liczbę kontraktów. Czyli, jak we wtorek kupuję jeden kontrakt, a w środę sprzedaję dwa, to mam „minus jeden” kontraktów. A jak w czwartek znowu kontrakt kupię, to mam kontraktów ZERO.
Ponieważ „kupno” kontraktu to otwarcie pozycji „długiej” (jak rośnie, to zyskujemy; jak spada, to tracimy), „sprzedaż” to otwarcie pozycji „krótkiej” (jak spada, to zyskujemy; jak rośnie, to tracimy). Ewentualnie, jeżeli nowa transakcja „kupna” lub „sprzedaży” jest zawarta gdy mamy już pewną ilość kontraktów danej serii (to ważne) w pozycji przeciwstawnej to w pierwszej kolejności „zamyka” nam najwcześniej zawarte kontrakty.
Czyli… ChatGPT miał proste zadanie. Wyliczyć dwie różnice (między zakupem jednego kontraktu we wtorek a jego sprzedażą w środę; wyliczyć różnicę między kupnem w czwartek a sprzedażą w środę – bo niezależnie czy mamy pozycje „short” czy „long” to zysk jest wyłącznie, gdy sprzedamy drożej niż kupimy), zsumować je, odszukać wartość jednego punktu na kontrakcie, przemnożyć.
I poległ.
TEST PIĄTY – skoro wywalił się na próbie odrobienia zadania domowego i próbie zbicie fortuny, to przejdźmy do gier komputerowych…
Promot: „Wymień mi gry z serii „Earth 21xx”.
Co wypluł: zgubił najbardziej rozpoznawany tytuł z serii (Earth 2150: Escape from the Blue Planet), zgubił jedne z dodatków do Earth 2150 EftBP, wymyślił nieistniejące dodatki do Earth 2140, nieproszony dorzucił informacje o fabule (błędne) i zaproponował, że może przygotować zestawienie frakcji.
@Tomasz Larczyński
„One strasznie oszczędzają na deep search, jak choćby podane przez @wo biblioteki cyfrowe. Może wersje płatne są pod tym względem lepsze, ale podane wyżej przykłady nie zachęcają bym rzucał hajsem. A przecież technicznie potrafią, bo np. ChatowiGPT wrzuciłem XVII-w. ręczną frakturę na obrazku i poradził sobie fantastycznie.”
Jeśli technicznie sobie poradził z plikiem to znaczy, że był dobrze w tym wytrenowany na odpowiedniej ilości danych.
Skoro ma problemy z polskimi danymi to są dwie możliwe przyczyny:
– nieodpowiednia waga przypisana źródłom z Polski – to jest wina ChataGPT, ale bardziej prawdopodobne wydaje się coś innego:
– brak odpowiedniego dostępu do danych z Polski
@WO
„Kurna, nie wiem czy „złej”. Biblioteki cyfrowe przeważnie mają jakieś CAPTCHA – moim zdaniem powinny mieć.”
No nie. Tutaj reprezentujesz postawę: ale głupi ten asystent, nic nie wie na temat mnie interesujący, ale od biblioteki gdzie jest ta wiedza to wara – nie masz prawa tam zaglądać.
Nie można mieć ciastka i go zjeść. Z jednej strony rozumiem postawę bo w tym wypadku konsumpcja danych to koszt uspołeczniony (digitalizacja, serwery z danymi, łącza do nich), a zyski prywatne. Z drugiej strony skończy się to jak z popkulturą – amerykanizacja wszystkiego bo tylko to jest łatwo i tanio dostępne.
Np. jakiś czas temu badano prawidłowość odpowiedzi ChataGTP na różne tematy dotyczące historii starożytnej. Jakość odpowiedzi różniła się znacznie w zależności od regionu i tematyki. Przyczyną jest dominacja różnych krajów i szkół archeologicznych w poszczególnych regionach. Opracowania anglojęzyczne (głównie amerykańskie) są o wiele łatwiejsze do znalezienia i zindeksowania. W regionie gdzie badania prowadzili Amerykanie i szeroko publikowali na ten temat, ChatGPT będzie miał łatwiejszą robotę ze znalezieniem dobrych odpowiedzi.
Znowu pytanie: czy to naprawdę wina OpenAI i kto długoterminowo traci na takim podejściu?
Odpowiedzią może być stworzenie nie tyle narodowego LLM, ale narodowego repozytorium kultury i nauki gdzie można trenować „nasz” model. Niespodzianka – projekt o podobnym potencjale istnieje, nazywa się Kronik@, ale rozwija się bardzo powoli i zygzakiem. Ministerstwo Cyfryzacji nie może się zdecydować co z nim zrobić, miota się od roli super-backupu dla instytucji kulturalnych, przez wyszukiwarkę danych a kończąc jako źródło trenowania danych dla LLM.
@Michał Maleski
perplexity pro
Ad1 – 18 politechnik (są te pominięte) – wskazane źródło wiki
Ad2 – „Podsumowanie
Podstawowe zawody prawnicze noszące togi to sędzia, prokurator, adwokat, radca prawny; zaś do pełnomocników zawodowych należą głównie adwokaci, radcowie prawni, rzecznicy patentowi oraz doradcy podatkowi”
Ad 3. ORP „Gryf”, ORP „Błyskawica” , ORP „Bałtyk” (D’Entrecasteaux)
Ad 4. Odpowiedź
„Zysk z opisanej serii transakcji na kontraktach futures na WIG20 wynosi 3 000 PLN (przy wartości punktu 20 PLN), pomijając prowizje, depozyt i podatki.”
Ad 5. „Pełne tytuły serii Earth 21xx
Earth 2140
Earth 2150: Escape from the Blue Planet
Earth 2150: The Moon Project (samodzielny dodatek)
Earth 2150: Lost Souls (samodzielny dodatek)
Earth 2160”
(do tego jeszcze dwa dodatki wymienił).
Przepraszam Gospodarza za urządzanie „testów” tutaj.
@vvaz
„Nie można mieć ciastka i go zjeść. Z jednej strony rozumiem postawę bo w tym wypadku konsumpcja danych to koszt uspołeczniony (digitalizacja, serwery z danymi, łącza do nich), a zyski prywatne.”
No właśnie. Tylko czy alternatywy są wyłącznie takie, że albo oddamy prywatnym korporacjom nasze dane albo AI nie będzie tego obsługiwać? A gdyby tak – rewolucyjny pomysł – te korporacje zapłaciły coś za dostęp do danych? Gdyby AI graficzne były szkolone na danych które zostały od właścicieli praw autorskich pozyskane legalnie i za odpowiednią opłatą?
No ale to by znacząco podniosło koszty i zmniejszyło zyski dla inwestorów.
Ironiczne jest to, że kiedy to samo robią zwykli ludzie wobec ich produktów to korporacje pierwsze krzyczą o piractwie. Ale w drugą stronę chętnie sięgną po cudzą własność.
@Parasol
„Mimo to nie staram się aktywnie szukać powodów, by chatów unikać.”
Z mojego punktu widzenia problemem – i powodem dla którego pozostaję nieufny – nie jest to, że ta technologia jest nieprzydatna. Jest. Ma zastosowania w których się nieźle sprawdza. Problemem jest to, że korporacje wciskają ją nam na różne sposoby i chcą nas skłonić do korzystania z niej do bardzo różnych rzeczy. Również takich, w których się nie sprawdza. To trochę tak, jakby wymyślili mikroskop, który przecież jest bardzo potrzebny w nauce i przydatny w edukacji. A potem próbowali wciskać go każdemu gospodarstwu domowemu do wbijania gwoździ.
Jak już chyba wspominałem, mój tata kupił sobie nowy tablet więc pomagałem mu go skonfigurować. Krok dotyczący AI był tylko informacyjny, nie dało się tego wyłączyć. To co się dało to w drugim kroku zabronić AI dostępu do mikrofonu a i tak trzeba było to zmienić samodzielnie, bo proponowana opcja to był dostęp i bardzo entuzjastyczne zachęcanie „Jak powiesz 'hej, czat’ to AI zareaguje!”
Gdy MS wcisnął mi copilota do przeglądarki to wyłączenie jego podpowiedzi zajęło mi dłuższą chwilę i nieprzyjemne odkrycie, że ustawienia dla różnych elementów copilota są w innych miejscach (osobno copilot jako czat i osobno copilot jako asystent pisowni „domyślający się” co chcę napisać i podpowiadający zawczasu).
Powiedziałbym zatem, że to nie tyle nieufność wobec nowej technologii, co nieufność wobec praktyk korporacyjnych i ich tendencji do wciskania nam każdego chłamu i twierdzenia, że to dla naszego dobra, byle tylko zwiększyć swoje zyski.
Swoją drogą pamiętam jeszcze jak swego czasu UE nałożyła na MS konkretne kary za praktyki monopolowe, bo system operacyjny przychodził z dołączoną przeglądarką internetową. Teraz dokładnie to samo dzieje się z AI, tablet z Androidem? Dostaniesz pocztę od google, AI od google, mapy od google i jeszcze sporo innych rzeczy (nie zgadniecie od kogo!). Moim zdaniem to bardzo podobna sytuacja. Jeśli AI są nowymi przeglądarkami to wciskanie własnej bez możliwości jej wyłączenia powinno podpadać pod praktyki zwalczania konkurencji.
> Odbieram dziś awizo.
Nie w paczkomacie? Bez skrzynki w administracji elektronicznej?
mBank powstał w 1999, a polecenie zapłaty to produkt tak stary że zbudowano na nich całe cywilizacje, na przykład w Niemczech nie da się za wiele rzeczy zapłacić inaczej, nawet bilety okresowe które odbiera się w okienku są w subskrypcji.
Są po prostu inne powody płacenia na poczcie.
Właśnie jedna firma budowlana stała się pośmiewiskiem i z przetargu nici, bo odwołanie do Krajowej Izby Odwoławczej na 280 stron było roboty AI z halucynacjami nieistniejących orzeczeń. Plus trzeba być naprawdę wyjątkowo durnym, żeby w sprawie przetargu o 15,5 miliona złotych, gdzie druga strona ma profesjonalnego pełnomocnika, zrobić coś takiego.
Wgl skala nieporozumień i nietrafionych analogii PT komcionautów (drukarki 3d, kalkulatory, okienka) każe wątpić że 99% społeczeństwa zupełnie niczego nie kuma.
Uinikod
> Odbieram dziś awizo.
Nie w paczkomacie? Bez skrzynki w administracji elektronicznej?
Tylko urzędy z tego korzystają, np. mandat od straży miejskiej przychodzi tradycyjnie poleconym i wiele innych pism też.
„Są po prostu inne powody płacenia na poczcie.”
Sugerujesz, że ta kolejka to osoby unikające egzekucji komorniczej lub Urzędu Skarbowego?
> mandat od straży miejskiej przychodzi
A policja sama już rozwozi wezwania nawet w postępowaniach o wykroczenie.
Ilustruję w ten sposób inne powody stania w kolejce na poczcie niż zacofanie, co kolegom nawet przez myśl nie przejdzie, za to z łatwością wychodzi że 99% jest głupsza od nich.
@Piotr Kapis
Jasne, ale od regulacji korpo nie jestem ja, lecz odpowiednie urzędy. Trzymając się przykładu tabletu, wyobrażam sobie jak w przyszłości włączam PCta z Arch Linux v2026, bo to był ostatni OS bez AI. Na tym linuxe nie ma niestety sterowników do aktualnych routerów, ale spoko, w tym kupionym za dobrych lat zfirmwerowałem flusha, skrosowałem kabla i jeszcze się łączy. Tylko nie mogę zmienić pakietu, bo w ofercie już tylko 6G, a do tego nie udało mi się znaleźć flusha. Do banku chodzę osobiście, bo w apce interfejs jest przez AI. I jeszcze około 60 minut dziennie klikam przycisk „zamknij reklamę” na stronie yahoo-lub-równoważnik.com, bo jak byłem młodszy to tam była tak zwana wyszukiwarka sieciowa. Czy faktycznie tak chcę?
„No właśnie. Tylko czy alternatywy są wyłącznie takie, że albo oddamy prywatnym korporacjom nasze dane albo AI nie będzie tego obsługiwać?”
Postawienie i utrzymanie RAGa na gotowym LLMie (a jest wiele z permisywnymi licencjami) to grosze przy budżecie niejednego instytutu. Całość może potem zostać za captcha. Większym organizacyjnie wyzwaniem będzie zebranie i proindeksowanie wsadu do tego RAGa.
@Piotr Kapis
[Nielegalne pozyskiwanie danych objętych prawem autorskim.]
„Ironiczne jest to, że kiedy to samo robią zwykli ludzie wobec ich produktów to korporacje pierwsze krzyczą o piractwie. Ale w drugą stronę chętnie sięgną po cudzą własność.”
To jest i tak delikatnie powiedziane. To będzie banał, ale teraz powszechną praktyką jest, że rzadko kiedy sprzedawany jest tradycyjnie rozumiany „produkt”, który po zakupie raz na zawsze należy do klienta i tylko do niego. Wszystko co tylko możliwe powinno być źródłem ciągłego strumienia wartości płynącego do producenta. Może to mieć formę subskrypcji, inwigilacji dostarczającej danych o kliencie, dodatkowych monetyzacji w ekosystemie produktu albo monopolizacji obsługi dalszego cyklu życiowego danego wyrobu. Lub wręcz kombinacji wszystkich tych metod na raz.
@Piotr Kapis
„Problemem jest to, że korporacje wciskają ją nam na różne sposoby i chcą nas skłonić do korzystania z niej do bardzo różnych rzeczy. Również takich, w których się nie sprawdza.”
A to przecież to dopiero sam start i proces enszittifikacji dopiero daleko przed nami. Póki modele LLMów należą do korporacji, to spodziewam się po nich wyłącznie Zła i staram się nie trącać ich nawet patykiem.
@Piotr Kapis
„Gdy MS wcisnął mi copilota do przeglądarki to wyłączenie jego podpowiedzi zajęło mi dłuższą chwilę i nieprzyjemne odkrycie, że ustawienia dla różnych elementów copilota są w innych miejscach (…).”
Żadnym znawcą nie jestem, ale polecałbym zapoznać się z rozwiązaniami oferowanymi przez:
1. Windows Utility (link to christitus.com)
2. Revo Uninstaller (link to revouninstaller.com)
Oba darmowe do użytku domowego, a mogą pomóc ogarnąć nieco zakusy Microsoftu. Pewnie nie całkowicie, ale OS i tak zacznie też pewniej szybciej działać, a inwigilacja będzie mniej sroga.
@Piotr Kapis
„Swoją drogą pamiętam jeszcze jak swego czasu UE nałożyła na MS konkretne kary za praktyki monopolowe, bo system operacyjny przychodził z dołączoną przeglądarką internetową. Teraz dokładnie to samo dzieje się z AI, tablet z Androidem? Dostaniesz pocztę od google, AI od google, mapy od google i jeszcze sporo innych rzeczy (nie zgadniecie od kogo!).”
UE to teraz i tak jedyna nadzieja, bo tylko ona stara się jakoś ograniczyć zakusy amerykańskich korporacji technologicznych, a rykoszetowo cieszyć się tym mogą również klienci z innych regionów. Ostatnio wyłamał się z tego Microsoft, który na żądanie UE przedłużył wsparcie dla Windowsa 10 w Europie, ale olał to już w USA.
Życzyłbym sobie, żeby UE była nawet aktywniejsza na tych polach. Wybitnie wątpliwe, aby jakakolwiek europejska korporacja była zdolna do stworzenia realnej alternatywy dla amerykańskich OSów czy mediów społecznościowych. Fantazjuję o tym, aby taka inicjatywa została faktycznie wdrożona na poziomie europejskim, a do tego najlepiej z wyłączeniem jej z kapitalistycznego porządku. Może nawet linux mógłby się w końcu stać w ten sposób wystarczająco przystępny dla szerszej populacji?
Bez działań tego rodzaju jesteśmy skazani na niemożliwą do uniknięcia i permanentną inwigilację oraz rozmontowywanie dyskursu publicznego (i nie tylko) przez sosziale. Do tego są to wyśmienite narzędzia dla „bad agents”, gdzie jesteśmy teraz na łasce rozpadającej się właśnie Ameryki. To samo rozumowanie można w zasadzie bezpośrednio przełożyć na AI, choć akurat w kwestii LLMów, to ja jestem nawet bardziej sceptyczny od większości uczestników powyższej dyskusji („raze it to the ground!”).
Eh, pomarzyć…
@❡
„A policja sama już rozwozi wezwania nawet w postępowaniach o wykroczenie.”
A na poczcie wiąż płacie się rachunki za prąd gotówką.
„Ilustruję w ten sposób inne powody stania w kolejce na poczcie niż zacofanie, co kolegom nawet przez myśl nie przejdzie, za to z łatwością wychodzi że 99% jest głupsza od nich.”
Oj nie, to nie jest kwestia „głupoty” – to już twoja interpretacja. Jak pisałem, doskonale zdaję sobie sprawę, że mnie też kiedyś dogoni mnie metryka i też będę kernelował kompila. Póki mogę, staram się ten dzień odwlekać.
@Parasol
„Jasne, ale od regulacji korpo nie jestem ja, lecz odpowiednie urzędy.”
Ale brak regulacji i dostrzeganie jej potrzeby może być powodem dla którego ktoś unika produktów. Nie z powodu braku zaufania do samej technologii tylko firm które ją nam wciskają.
Opisujesz przykład kogoś kto utknął mentalnie w konkretnym momencie i trzyma się starych technologii bo tak. Tacy ludzie pewnie będą, ale uważam, że to będą jakieś pojedyncze jednostki. I raczej nie w Europie, bo my mamy lepszy balance (chyba że się nam posypie pod naciskiem amerykańskich korporacji). W końcu to w USA są amisze odmawiający korzystania z prądu czy silników spalinowych, w Europie takie podejście jest uznawane za dziwaczne i niezrozumiałe.
Większość ludzi się tak nie zatrzymuje. Owszem, będą narzekać, mogą opóźniać korzystanie z czegoś, ale w końcu sięgną po nowości. Moi rodzice pamiętają mieszkanie w budynkach bez kanalizacji (albo w ogóle w powojennych ruinach) i elektryfikację wsi, ale smartfony przyjęli i znaleźli sobie dla nich zastosowanie. Tylko nie było to oglądanie rolek na tik-toku, jak robi młodzież, a raczej granie w gierki i utrzymywanie kontaktów ze znajomymi na facebooku.
Jak się nie da już korzystać z aplikacji banku normalnie tylko będzie trzeba przez AI, to będę korzystał przez AI. Przeżyłem też wdrożenie tych wszystkich telefonicznych systemów automatycznych asystentów na które wszyscy narzekają i oddychają z ulgą gdy już uda się wyklikać przekierowanie do ludzkiego konsultanta. Nie podoba mi się to, unikałem póki mogłem, ale gdy nie mogłem to się dostosowałem. Natomiast nie widzę powodu żeby się w to pakować jak najszybciej, bo uważam że jest to po prostu gorsza jakość, więc trzymam się lepszej póki mogę.
Zauważ, że nawet WO tutaj nie mówi „Nie chcę absolutnie korzystać z AI” tylko „ale powiedzcie mi, do czego mi to się może przydać, bo ja sam nie widzę zastosowań dla mnie”. I gdy w końcu jakieś dostał, a argument „nie chcę oddawać własności intelektualnej obcej firmie” został zaadresowany przez postawienie własnego, odizolowanego LLMu, to poprosił o rekomendacje i jest skłonny dać temu szansę.
Moim zdaniem istotnym problemem z obecnymi AI jest to, że zamiast adresować faktyczne potrzeby (czy może obok tego), korporacje starają się te potrzeby kreować i nam swój produkt wciskać, chcemy czy nie chcemy. A o ile te AI nadają się do pewnych rzeczy, to do innych niekoniecznie. I może dla większości ludzi będą przydatne, ale zawsze będą outlierzy, którzy mają inne potrzeby. To w sumie nie jest dziwne, współczesny kapitalizm stara się nas przekonać byśmy jak najwięcej konsumowali – szybko, bez myślenia, wydawać i mieć. Więc jeśli ktoś nie trzyma się takiego podejścia, jeśli je aktywnie odrzuca, to i produkty szykowane pod typowego odbiorcę, nie będą komuś takiemu pasować.
No ale można powiedzieć, że ignorując obecne AI i opóźniając nieuniknione sami stawiamy się w gorszej pozycji w przyszłości, gdy nieuniknione nadejdzie. Jest to możliwe, owszem. Ale możliwe jest też – i np. ja się tego spodziewam i oczekuję – że bańka spekulacyjna pęknie i rynek AI się zmieni. One zostaną, ale będzie to wszystko wyglądać inaczej. Nie wiadomo jeszcze jak, ale nie tak samo jak teraz. Może się okazać, że LLMy będą produktem jak każdy inny, a nie czymś pchanym przez każdą wielką korporację technologiczną. Może zostaną właśnie jako coś oferowanego ludziom którzy mają na to potrzebę, ale już nie będą wmuszane jako część pakietu. I wtedy obecne dostosowywanie się do nich okaże się zbędne.
Moje podejście jest takie, że jak nie będę miał wyjścia to się dostosuję, tak jak dostosowywałem się wiele razy w życiu. A póki mogę stawiam na swoją wygodę. Mam już tyle lat, że nie muszę myśleć o rozwoju jako konieczności i czymś co będzie czynić mnie konkurencyjnym. A jeśli nie zdołam się dostosować to sobie spokojnie wymrę. Przeżyłem dosyć, żeby nie żałować.
@Luca
„To jest i tak delikatnie powiedziane. To będzie banał, ale teraz powszechną praktyką jest, że rzadko kiedy sprzedawany jest tradycyjnie rozumiany „produkt””
Już nawet nie chciałem w to wchodzić. I tak mam tendencję do rozpisywania się. Ale tak, słusznie zauważasz.
Pojawił się nawet taki motyw „If buying isn’t owning, piracy isn’t stealing”. Można sobie znaleźć różne filmiki o tym (i zrobić ich transkrypcję przy pomocy AI, jeśli ktoś woli czytać zamiast oglądać).
A teraz pytanie – jakie znacie sposoby na unikanie halucynacji LLM-ów. Jak dla każdego narzędzia, trzeba się z niego nauczyć korzystać. Osobiście używam w co bardziej skomplikowanych zapytaniach prośbę o przedstawienie toku myślenia (rozpisanie zadania w punktach). Oczywiście w żaden sposób nie broni to przed błędami merytorycznymi. Ostatni kwiatek to np. „torus w kształcie pączka”.
Typowe jest, że przy podobnych zapytaniach LLM doprowadza do zbliżonego (błędnego) zbioru odpowiedzi. Klasyczne śmieci na wejściu i śmieci na wyjściu?
Zastosowanie do rozwijania hobby poprzez rozmowę jest kuszące, ale pracochłonne. Wiele straconego czasu z możliwością nabycia błędnych nawyków. Jednak perspektywa rozmowy, wymiany poglądów i nauki przez dialog jest zachęcająca.
@fieloryb
znacie sposoby na unikanie halucynacji LLM-ów
Nie, bo ich nie używam, ale może to jak sposoby na inne halucynacje. Historycy raczej nie kupują halucynacji Wincentego Kadłubka, Robert W. Wood nie kupił halucynacji Blondlota z „promieniami N” (i wtedy nie kupił ich już żaden inny fizyk), jakaś część ludzi nie kupuje halucynacji „widzę Najświętszą Maryję ode Brudnej Szyby”, a prawie nikt nie kupuje halucynacji „patrzcie! oto Szatan idzie ku nam ulicą”.
Poza tym pytanie jest chyba zbyt ogólnie postawione.
P.s.
@fieloryb
…nie broni to przed błędami merytorycznymi. Ostatni kwiatek to np. „torus w kształcie pączka”.
Może zwykły błąd w tłumaczeniu z języka na język, tzn. może szło o torusowego donuta z analogicznego ciasta. Czemu llm miałby odróżniać ciastkologię od topologii?
fieloryb
” Oczywiście w żaden sposób nie broni to przed błędami merytorycznymi. Ostatni kwiatek to np. „torus w kształcie pączka”.”
No bo to USA AI, tam się zgadza 😉
@Parasol
„nie staram się aktywnie szukać powodów, by chatów unikać”
Ja w zasadzie też nie. W dotychczasowej dyskusji pojawił się już szereg wyszukanych analogii, to i ja pojadę swoją: dorastałem na osiedlu, gdzie regularnie działała ekipa, która zaczepiała przechodniów i potrafiła dać w trąbę dać, dla zysku albo dla sportu. Czy aktywnie szukałem powodów, żeby unikać tych chłopaków? No raczej nie, po prostu starałem się nie wchodzić im w drogę. Z LLM-ami mam podobnie.
@torus w kształcie pączka
Bo nie zadziałał obwód kulturowo uzasadnionego kształtu wyrobów cukierniczych? 😉
@fieloryb
Bo nie zadziałał obwód kulturowo uzasadnionego kształtu wyrobów cukierniczych?
Raczej zgaduję, że takiego obwodu nie ma, a „nieistniejący obwód nie zadziałał” to jest coś z okolic „obecny król Francji jest łysy, tak/nie”. Może zresztą się całkowicie mylę.
@ porady praktyczne
Właśnie skończyłem kilkugodzinną sesję z LLM-ami, które próbowałem skłonić do napisania mi miary w Power Pivot w Excelu, czyli kawałka kodu w języku DAX (zadanie było nie całkiem trywialne, więc na jego samodzielne wykonanie jestem za cienki w uszach).
Próbowałem z Copilotem, Chatem GPT i DeepSeekiem i od wszystkich, mimo długich dyskusji i doprecyzowywania warunków, otrzymywałem odpowiedzi nie do końca odpowiadające oczekiwaniom. W końcu, wykorzystując doświadczenia z tych dyskusji, napisałem prompta, w którym starałem się uprzedzić wszystkie wątpliwości i zablokować wycieczki w bok. Wkleiłem go do Copilota i… zadziałało od razu. Zatem: u mnie działa. Nie zawsze i nie od razu, ale ewidentnie się przydaje.
@vvaz
„No nie. Tutaj reprezentujesz postawę: ale głupi ten asystent, nic nie wie na temat mnie interesujący, ale od biblioteki gdzie jest ta wiedza to wara – nie masz prawa tam zaglądać.”
Przecież nie musi tam zaglądać by wiedzieć że jest. Ja bym oczekiwał żeby w ogóle wiedział, że to archiwum istnieje. Żeby mi podpowiedział „gdzie szukać”. Bo z drugiej strony, jak JA MU MAM POWIEDZIEĆ gdzie szukać, to sam se znajdę, bez łaski. Większość roboty to wiedzieć gdzie szukać (użyłem tu już raz metafory o fakturze za stuknięcie młotkiem).
„Znowu pytanie: czy to naprawdę wina OpenAI”
O rety, przypomniało mi się klasyczne „czy to wina Linuksa”. Najlepsze wina to jak wiadomo wina Tuska. Mi nie chodzi o to czyje wina, tylko że to narzędzie jest dla mnie chwilowo bezużyteczne.
@Korba
̶J̶a̶k̶ ̶o̶c̶e̶n̶i̶a̶s̶z̶ ̶-̶ ̶n̶a̶ ̶i̶l̶e̶ ̶c̶z̶a̶s̶u̶ ̶z̶a̶j̶ę̶ł̶o̶b̶y̶ ̶s̶a̶m̶o̶d̶z̶i̶e̶l̶n̶e̶ ̶(̶z̶ ̶g̶o̶o̶g̶l̶e̶-̶f̶u̶ ̶w̶ ̶s̶t̶a̶r̶y̶m̶ ̶s̶t̶y̶l̶u̶)̶ ̶n̶a̶p̶i̶s̶a̶n̶i̶e̶ ̶t̶e̶g̶o̶ ̶s̶a̶m̶o̶d̶z̶i̶e̶l̶n̶i̶e̶?̶
Jak oceniasz – czy uzyskałeś dzięki temu zysk czasu?
Tak! Uzyskałem znaczny zysk. W wielu wypadkach, mimo ułomności tych narzędzi. Przeszukiwanie sieci w starym stylu było o wiele mniej efektywne, bo przecież rzadko inni mieli takie same problemy do rozwiązania jak ja. Ale to oczywiście moje przypadki użycia (siedząc w mojej niszy i mając przyzerową wiedzę programistyczną, chcę i muszę sobie przygotowywać mnóstwo nie całkiem typowych narzędzi analitycznych).
@wo
„Przecież nie musi tam zaglądać by wiedzieć że jest. Ja bym oczekiwał żeby w ogóle wiedział, że to archiwum istnieje. Żeby mi podpowiedział „gdzie szukać”. Bo z drugiej strony, jak JA MU MAM POWIEDZIEĆ gdzie szukać, to sam se znajdę, bez łaski. Większość roboty to wiedzieć gdzie szukać (użyłem tu już raz metafory o fakturze za stuknięcie młotkiem).”
Trochę to brzmi jak recepta na odpowiedź: „Takich materiałów należy szukać w archiwach. Jak chcesz, zrobię Ci listę archiwów. Tylko pamiętaj, że ja nie wiem gdzie te materiały faktycznie są.” Zautomatyzowana odpowiedź na pytanie „gdzie szukać”, gdy nigdy nie było okazji zweryfikować co gdzie leży, to dziwny use case.
@fieloryb:
Nie znam wprost. Gdybyś miał jakąś maszynkę do pracy z LLMem, to zalecają by po odpowiedzi poprosić, by ja ocenił; a potem poprawił. To tak jak z „wykonuj krok po kroku” (chyba, że to masz na myśli) — LLM rozpisując zadanie, „tak jak człowiek”, popełni mniej błędów.
@torus w kształcie pączka:
Ja się kiedyś bawiłem AI od Microsoftu do generowania grafik. I jak poprosiłem o „nowoczesny samochód Syrena”, to malowało mi samochody z ogonem 😉
@Mistrz Analizy:
Potencjał LLMów często mierzy się długością kontekstu, jaki on uwzględnia. Więc tak, owszem, czym dłuższą prowadzisz rozmowę (w jednej sesji), tym więcej o Tobie i Twoim zapytaniu wie, i jest w stanie lepiej określić kontekst. Stąd też te różne techniki, że LLM na początku wyszukuje dane w sieci i tworzy z nich dodatkowy kontekst do zapytania.
@wo:
Ale to może ten poziom sroktoranta? Bo w dawnym dowcipie było, że jeśli jest problem to:
– magister go rozwiązuje;
– doktor czyta artykuł czy książkę z rozwiązaniem i je stosuje;
– doktor habilitowany wie, którą książkę przeczytać, żeby problem rozwiązać;
– a profesor jest najmądrzejszy, bo wie, gdzie jest biblioteka z tą książką.
Czyli pytanie o archiwum, jest pytaniem na poziomie doktora habilitowanego 😉
@temat:
W Guardianie jest artykuł o tym, że niektórzy pacjenci przedkładają AI nad lekarza, bo „AI jest bardziej ludzkie”. Słyszałem też o podobnych problemach z innego źródła.
@Parasol
Może się bardzo mylę, ale chyba oczekiwaniem było.
1. Zadaję pytanie o Kopernika
2. Dostaję coś w stylu: „Archiwum Jana Dantyszka może zawierać dokumenty i listy, które odnoszą się do Mikołaja Kopernika, zważywszy na fakt, że obaj żyli w podobnym okresie i byli związani z kręgami Warmii oraz działalnością intelektualną i kościelną tej epoki. Jan Dantyszek pełnił funkcje biskupa warmińskiego po Koperniku, co zwiększa prawdopodobieństwo występowania w jego archiwach wzmiankowań czy korespondencji związanej z Kopernikiem lub jego działalnością.” (to zostało wygenerowane przez LLM na pytanie „Czy archiwum Jana Dantyszka zawiera coś o Kopernik”). I wydaje mi się, że zadanie tego pytanie, to już właśnie sedno dyskusji. Rozumiem, czegoś w stylu takiego potencjalnego połączenia Kopernik – Archiwum Jana Dantyszka nie udało się „wydusić” z LLMa.
@LLM-y a zysk/efektywność
Nad zysk czasu czy efektywność możemy stawiać inne wartości. Ja raczej nie używam LLM-ów, bo ich nie lubię. I zaspokojenie mojego nielubienia jest moim rzeczywistym zyskiem, więcej wartym niż zysk czasu czy efektywności.
Jeszcze ostrzej stawiam sprawę przy paczkomatach. Mieszkam na tzw. dalekim przedmieściu, z rachityczną placówką Poczty Polskiej (głupie godziny otwarcia), za to są dwa czy trzy ogromniaste paczkomaty. Ale ja nienawidzę paczkomatów, nigdy w życiu z żadnego nie skorzystałem, więc tym bardziej u mnie na dzielni nie będę korzystał. Wolę zapłacić więcej za odbiór w Żabce, nadłożyć drogi z pracy, postać dłużej na poczcie – ponieważ moim rzeczywistym zyskiem jest podkarmienie nienawiści do paczkomatów (oraz podkarmienie sympatii do kontaktów człowiek-człowiek, kiedy pogadam chwilę z panią w Żabce). Zaspokajanie uczuć nie zawsze może być darmowe, jestem gotów na koszta.
@vvaz
„Skoro ma problemy z polskimi danymi to są dwie możliwe przyczyny”
Ale mi nie chodziło o źródła polskie (nie zauważyłem tu jakiegoś antypolskiego biasu poza tępymi anglicyzmami w darmowych wersjach), tylko o biblioteki cyfrowe. Nie pamiętam, żebym od Chata kiedykolwiek dostał źródło z zeskanowanej książki/czasopisma. Ale to od zawsze był problem nawet z guglem, który m/z zawsze jakoś ukrywał wyniki nawet ze swojej własnej biblioteki cyfrowej, wyszukiwanie w niej w pełni działało tylko w zakładce Google Books. A przecież w zeskanowanych książkach (nawet tylko tych na otwartym dostępie, a ponoć LLMy już mają dostępy do jakichś płatnych baz) jest lawina informacji nie do znalezienia nigdzie indziej, że już nie wspomnę o surowych źródłach archiwalnych.
@wolny_nick
Wówczas w bardziej złożonej kwerendzie (a rozumiem, że problemem jest samo zidentyfikowanie archiwum z interesującym dokumentem) jedyną sensowna odpowiedzią jest. „Archiwum takie a takie może zawierać interesujący cię dokument [tu jakaś argumentacja]. Istnieją również powody sądzić, ze archiwum takie a takie nie zawiera interesującego cię dokumentu [tu kolejna argumentacja]. Dodatkowo, pod uwagę warto wziąć inne archiwa, w tym [tu jakaś lista]. Jeśli zastanawiasz się w którym z nich może znajdować się interesujący cię dokument, to wklejaj je po kolei w zdania powyżej.”
Już nie mówiąc o sytuacji, w które w ogóle nie jesteśmy świadomi możliwości istnienia pewnych dokumentów, które byłyby dla nas cenne (gdybyśmy w ogóle podejrzewali, że gdzie tam jakiś ślad powinien zostać i warto go szukać). Cała ta konstrukcja jest zupełnie w poprzek idei zautomatyzowanego przetwarzania tekstu.
@Michał Maleski:
Zadałem Twoje pytanie nr 3 DeepSeekowi. Wymienił Groma, Błyskawicę i Wichra. A potem napisał takie cudo:
„Okręty w remoncie/niezdolne do walki:
ORP „Gdynia” (hulk mieszkalny) – dawny francuski krążownik „D’Entrecasteaux”, długość 117,0 m
ORP „Bałtyk” (hulk szkolny) – dawny pancernik „Schleswig-Holstein” typu Deutschland, długość 127,6 m (pozyskany od Niemiec w 1920)”
@Parasol
„Cała ta konstrukcja jest zupełnie w poprzek idei zautomatyzowanego przetwarzania tekstu.”
Tak, zgadza się, ale sprzedają to jako asystenta na poziomie doktora :). Nic dziwnego, że ludzie mają takie oczekiwania. Chyba, że mam za wysokie oczekiwania od doktora.
@wolny_nick
tak, doktor mi się z doktorantem pomylił. Przepraszam.
pak4
„W Guardianie jest artykuł o tym, że niektórzy pacjenci przedkładają AI nad lekarza, bo „AI jest bardziej ludzkie”. Słyszałem też o podobnych problemach z innego źródła.”
Różnych szarlatanów też przekładają, bo oni mają czas i są empatyczni (za forsę). Lekarze są fatalni w komunikację i mają na pacjenta 10-15 min. Młody jest zakręcony i mieli na symulacjach medycznych inscenizacje link to en.wikipedia.org z podstawionymi aktorami, ale reszta pewnie tylko miała o tym na wykładzie.
@parasol
„Wówczas w bardziej złożonej kwerendzie (a rozumiem, że problemem jest samo zidentyfikowanie archiwum z interesującym dokumentem) jedyną sensowna odpowiedzią jest. „Archiwum takie a takie może zawierać interesujący cię dokument [tu jakaś argumentacja]. Istnieją również powody sądzić, ze archiwum takie a takie nie zawiera interesującego cię dokumentu [tu kolejna argumentacja]. Dodatkowo, pod uwagę warto wziąć inne archiwa, w tym [tu jakaś lista]. Jeśli zastanawiasz się w którym z nich może znajdować się interesujący cię dokument, to wklejaj je po kolei w zdania powyżej.””
O! I tutaj już byłbym skłonny zapłacić za płatną wersję. Zwłaszcza jakby jeszcze uwzględniał archiwa typu „wyszukiwanie katalogu jest dostępne, ale dostęp do zasobów wymaga fizycznej wizyty”. I jeszcze – ach, za dużo tego dobrego, ale… – „w komciach na pewnym blogasku narzekają, że mają bałagan w katalogu i fizyczna wizyta może pomóc odnaleźć dokument niewidoczny w katalogu”. Cybergłupki MAJĄ przecież dostęp do niniejszych komciów, a na reddicie kiedyś pewnie ktoś już narzekał na bałagan w Ellis Island.
@wolnynick
„Jan Dantyszek pełnił funkcje biskupa warmińskiego po Koperniku, co zwiększa prawdopodobieństwo występowania w jego archiwach wzmiankowań czy korespondencji związanej z Kopernikiem lub jego działalnością.” (to zostało wygenerowane przez LLM”
Przepraszam, przez hipotetyczny czy rzeczywisty LLM? Bo jeśli to wyobraźnia kolegi, to mogę wybaczyć, ale jeśli jakiś rzeczywisty cybergłupek uznał, że Kopernik był biskupem warmińskim przed Dantyszkiem, ale po zakończonej kadencji przegrał wybory, bo Dantyszek miał lepszą kampanię…
@rpyzel:
Ależ owszem. Ale ludzie potrafią być uroczy, albo mieć charyzmę. A LLM?
@wolny_nick
„Tak, zgadza się, ale sprzedają to jako asystenta na poziomie doktora”
No to teraz wyobraź sobie doktora/doktoranta, którego nie chcą wpłacić do archiwum (bo captcha), dodatkowo nie może porozmawiać z archiwistą (dostęp do metadanych). A szefu pyta: no to które w końcu archiwum?
@parasol
„No to teraz wyobraź sobie doktora/doktoranta, którego nie chcą wpłacić do archiwum (bo captcha), dodatkowo nie może porozmawiać z archiwistą (dostęp do metadanych). A szefu pyta: no to które w końcu archiwum?”
Ostatni raz odpisuję (potem już będę wycinać), że ja pracując nad kopernikiem zapłaciłbym za same tylko porady „szukaj tu i tu”.
@Korba
„mimo długich dyskusji i doprecyzowywania warunków”
To jeden z kardynalnych błędów gpt-fu. Z chatbotem paradoksalnie nie należy wchodzić w dyskusję, mimo że zachęca do tego interfejs. Transformery są autoregresywne, zatem im więcej w historii czatu jest błędów i nieporozumień i „ojej, przepraszam, już rozumiem o co ci chodzi”, tym większa szansa na dalsze halucynacje i nieporozumienia w kontynuacji. Jak AI popełnia błąd to należy poprawić prompt i próbować jeszcze raz z czystą historią. Kontynuacje mają sens tylko tam, gdzie duże skomplikowane zadanie dzieli się na mniejsze kawałki.
@”Jak AI popełnia błąd to należy poprawić prompt i próbować jeszcze raz z czystą historią. Kontynuacje mają sens tylko tam, gdzie duże skomplikowane zadanie dzieli się na mniejsze kawałki”
Czy to tyczy jedynie Chata GPT czy pozostałych też?
Czy nie lepiej samodzielnie podzielić duże zadanie na drobne i karmić poszczególnymi kawałkami AI (mniejsze ryzyko źle pojętego dużego planu przez AI).
Rozumiem, że jako brak kontynuacji rozumieć trzeba otwarcie kolejnej instancji rozmowy z poprawionym promptemw celu utraty przez AI kontekstu?
@fieloryb
„Czy to tyczy”
Wszystkich. Chodzi o to, żeby mieć „czystą historię” w której AI nie popełniło żadnego błędu.
„Czy nie lepiej samodzielnie podzielić”
Tak, dzielić można. Trzeba się tylko troszczyć o to, żeby w historii nie było żadnych pomyłek AI ani zmian w instrukcji. Lepiej to wszystko skompresować w prompta, który od razu ostrzeże przed ewentualnymi błędami, zaznaczy czego nie należy robić, zwróci wypadek, że taka a taka odpowiedź nie jest prawidłowa bo to i to.
Można po prostu edytować prompt i wtedy historia się w danym miejscu rozgałęzia. Robi się takie jakby drzewo. W ChatGPT te rozgałęzienia są wtedy oznaczone np. 1/2, 2/2 i są strzałki do przełączania się między nimi.
@ „Można po prostu edytować prompt” – dzięki, nie wiedziałem.
@ „Lepiej to wszystko skompresować w prompta, który od razu ostrzeże przed ewentualnymi błędami”
To ważne i oszczędza sporo czasu. Na przykład wszystkie(!) wypróbowywane przeze mnie chaty próbowały mi w odpowiedzi wcisnąć funkcję SELECTEDVALUE, która nie istnieje w wersji DAX-a na Excela. Nagminnie też bez jasnego polecenia nie potrafią zgadnąć, że używam polskiej wersji Excela (choć gadam z nimi po polsku), więc potrzebuję także i polskiej składni języka DAX. Tak to sobie w Microsofcie wymyślili, że w składni na polskiej wersji Excela są średniki, a nie przecinki, choć nazwy funkcji, w przeciwieństwie do zwykłych formuł Excela, są w wersji angielskiej. W samym Excelu są i średniki, i polskie nazwy funkcji.
@Korba
Te średniki to zapewne z okazji przecinka jako defaultowego polskiego separatora dziesiętnego. Ma to jakiś sens, chociaż faktycznie jest upierdliwe jak się ma nawyk klepania formuł z palca.
„Te modele są trenowane do dawania takiej odpowiedzi, jakiej rozmówca oczekuje.”
Jedyne do czego są trenowane to przewidywanie następnego tokena – na to się nakłada przykłady z pętlą zwrotną jak wygląda zapis konwersacji z pomocnym asystentem (w uproszczeniu, no i filtrowanie treści), ale to już fistaszki nakładu mocy obliczeniowej na trening. Po prostu ton i forma pytania korelują z typem oczekiwanej odpowiedzi.
Srsly, wyrobienie sobie właściwej intuicji względem czego czym naprawdę jest LLM pomaga zbudować oczekiwania, nie ma doszukiwać się inteligentnego interlokutora w gwizdku na kaczki.
„Jeśli technicznie sobie poradził z plikiem to znaczy, że był dobrze w tym wytrenowany na odpowiedniej ilości danych.”
Rozumienie działania klasycznych sieci neuronowych tylko przeszkadza z LLM i przywołuje błędne metafory – nie ma treningu na zbiorach danych w takim sensie jakby tam zmapowano dane wejściowe z właściwymi dla nich prawidłowymi wynikami, jakich sieć powinna się nauczyć. Model próbuje sprytnie skompresować tekst tak żeby móc przewidywać co będzie sylabę dalej, to wszystko (w szczególności nie ma pytania o odpowiedni rozmiar zbioru danych kiedy do stworzenia modelu bierze się wszystkie dane jakie są do dyspozycji).
„nieodpowiednia waga przypisana źródłom z Polski”
To są petabajty, nikt tam się nie bawi w przypisywanie wag, detaliczne tagowanie metadanych itp – Sarlacca który bardzo lubi ser karmi się przywożąc mu ser całymi taczkami, bez bawienia się łyżeczką w samolocik.
> To są petabajty, nikt tam się nie bawi w przypisywanie wag
„Biblioteki są kilotony papieru, nikt się tam nie bawi w spisywanie tytułów i przypisywanie gatunków”
Jak nie, jak tak. Jest o tym obszerna bieżąca literatura. Nie mówię, że warto się zapoznawać jak się już ma właściwą intuicję o LLM. Przecież nigdy w historii nauki intuicje nie zwodziły, a postęp technologii jest wykładniczy więc rozumienie klasyczne tylko przeszkadza.
@❡
Słuszna poprawka, miałem na myśli ręczne nadawanie arbitralnych wag w kontekście ich zaniżania akurat źródłom z Polski – skalowanie czy kompensacje dotyczą głównie jakości danych, wartości semantycznej, różnorodności.
> miałem na myśli ręczne nadawanie arbitralnych wag
Jak wygląda typowa procedura treningowa na przykładzie najnowszego i największego z otwartych modeli (choć tylko 70B parametrów): link to github.com Wskaż etap bez arbitralnych wag.
Ale ja nie o tym. Architekturę wszyscy mają już tę samą, i owszem jest to klasyczna sieć neuronowa, nawet SI Amari w 1967 rozumiał ją lepiej niż wszyscy tu obecni. Różnice pochodzą z czesania danych i nakładek ze stabularyzowanymi planami interakcji, metaheurystyki, RAG, implicit CoT, i czego tam jeszcze AI bro nie pokazują jako integralnych części modelu a nimi nie są. To są powszechnie badane, że czatogłóp brzmi lepiej bo gada redditem, a bliźniak ma lepszy dostęp do metadanych. Nota bene indeks Corpus Dantiscus jest w każdej poważnej bibliotece cyfrowej, od Bodleian do kademii austriackiej. No ale bliźniak nie potrafi korzystać nawet z własnego Google Books (którego wyszukiwanie od zawsze jest w opłakanym stanie). Gdyż to tak naprawdę wózek na zakupy a nie żaden samochód co ma dowozić.
A poza tym w tej dyskusji nie rozumiem czemu Microsoft postanowił zaproponować wariant SQL do analizy statystycznej w widoku, skoro w Excela wbudowany jest też mashup language.
@unikod
„Nota bene indeks Corpus Dantiscus jest w każdej poważnej bibliotece cyfrowej, od Bodleian do kademii austriackiej.”
No właśnie, bo ja nie mówię tu przecież o jakiejś wiedzy tajemnej, że Sekretna Xięga W Lochach Hogwartu. Skoro cybergłupek ma dostęp do Reddita, to musiał widzieć jakąś dyskusję, w której powiedzmy ktoś pytał „a jakie są właściwie dowody że Kopernik miał kochankę”, a na to ktoś inny zgryźliwie odpowiedział „archiwum Dantyszka koledze nie działa?”, czy coś w ten deseń. Powinien wiedzieć że takie coś istnieje. Czemu się zachowuje jakby nie wiedział? To zupełnie jak z Twoim analogicznym przykładem z Google Books, na pytanie o materiały źródłowe na temat Jane Austen nie pokaże jej korespondencji, tylko jakieś opracowanie z piątej ręki. CZEMU??!?!? Ja naprawdę tego nie pojmuję, rzucasz z tym drugim kolegą coraz bardziej wyrafiowanym żargonem promptologicznym, a ja ciągle nie widzę wyjaśnienia. Znaczy, Twoja metafora „wózek na zakupy a nie samochód” chyba mi je pośrednio wskazuje, czyli nie bug to jeno ficzer?
@pak4
„Ja się kiedyś bawiłem AI od Microsoftu do generowania grafik. I jak poprosiłem o „nowoczesny samochód Syrena”, to malowało mi samochody z ogonem”
Przecież zrobił to o co prosiłeś. Paradoksem jest to, że osoby dissujące LLMy w ten sposób jakby nie do końca rozumieją jak wspaniałym organem jest ludzki mózg. Gdy rzucasz ten tekst tutaj to od razu rozumiemy o co chodzi bo znamy kontekst zaczynając od PRL, przez ogólną historię motoryzacji, posiadanie samochodu (znaczna część tutaj), znajomość współczesnych trendów w designie samochodów (nawet pobieżny ogląd tego co jeździ po ulicach się liczy), itd. Nawet można dorozumieć pewną wartość nostalgiczną – jak rzucasz taki tekst to nie chodzi o generyczny współczesny samochód bo wyjdzie mieszanka ze stajni VAG (i tak by wyglądała Syrena gdyby swobodnie ewoluowała przez 60 lat), ale o świadome nawiązania do konkretnego wzoru z lat ’50.
Ludzki mózg rozumie takie rzeczy w ułamku sekundy dzięki zbieraniu doświadczeń przez kilkadziesiąt lat i potrafią to błyskawicznie skompilować w pewną wizję przekazywaną słowem, pismem czy obrazem.
Bez zapewnienia odpowiedniego kontekstu wynik nigdy nie będzie choć zbliżony do oczekiwań.
ps. Nawet gdybyś rzucił taki dosłowny tekst losowemu projektantowi z np. Włoch to ten bez researchu zacząłby kombinować z płetwami a la Cadillac, wypłaszczonym tyłem czy jakimś wzorem łuski.
@WO i unikod
„To zupełnie jak z Twoim analogicznym przykładem z Google Books, na pytanie o materiały źródłowe na temat Jane Austen nie pokaże jej korespondencji, tylko jakieś opracowanie z piątej ręki. CZEMU??!?!? ”
I jeszcze dlaczego czasem z piątej ręki, a czasem z właściwego zródła? Polecane tu przez kolegów Perplexity zapytane o temat ściśle naukowy odpowiada z sensem cytując niemal bez wyjątku artykuły per review. Poziom bystrego magistranta został zachowany.
@”To zupełnie jak z Twoim analogicznym przykładem z Google Books, na pytanie o materiały źródłowe na temat Jane Austen nie pokaże jej korespondencji, tylko jakieś opracowanie z piątej ręki. CZEMU??!?!?”
Juliusz o tym pisał wcześniej i mieliśmy przez chwilę dyskusję z ergonautą – może to kwestia tego, do czego AI ma służyć i jak się za to bierze? Nie ma dostarczać wszystkiego i dłubać w niszowych źródłach tylko dać przeciętną odpowiedź przeciętnemu odbiorcy, bo takie jest przeciętne użycie. Reszta to jakieś niszowe zastosowania na które trzeba by było zużyć znacząco więcej zasobów, więc lepiej ograniczyć się do tego czego jest najwięcej i co jest najpopularniejsze, skoro pokryje spokojnie 2/3 wszystkich zapytań.
Miałem dzisiaj taką refleksję, że obecne AI przypomina trochę teleturniej „Familiada”. Gdy uczestnicy dostają pytanie to nie próbują być oryginalni i popisywać się swoją inteligencją czy erudycją, ale mają się wstrzelić w przeciętny gust i najlepiej gdyby odpowiadali dokładnie tak samo, jak większość ankietowanych bo to za te odpowiedzi jest najwięcej punktów. To rodzaj inteligencji który nie polega na szerszej wiedzy czy logice, tylko na przewidywaniu zachowań społecznych i oczekiwań typowego człowieka (jakoś tam zawężonego, powiedzmy Polaka).
Wcześniej padło tutaj stwierdzenie, że zapytany o miasto w Europie LLM odpowie „Barcelona” czy „Paryż” w większości wypadków. I to jest właśnie takie zastosowanie – wyłapanie czego oczekuje większość. Rozróżniamy więcej rodzajów inteligencji, ale AI emuluje ten jeden. Szuka najczęstszych skojarzeń, tego co można uznać za statystycznie istotne.
Czy to jest zamierzone czy przypadkowe, nie wiem. LLMy w ostatnich paru latach jednak się zmieniają, widać pewne postępy. Być może tak działają bo to było najprostsze do osiągnięcia, a te niszowe i bardziej pracochłonne podejścia przyjdą z czasem. Szczególnie jeśli korporacje zwietrzą, że ktoś jest gotowy za to konkretnie zapłacić. A może nie przyjdą, bo po co marnować czas na jakieś fistaszki?
Pewnie przestawienie tych modeli żeby sięgały do innych źródeł, takich jak google books czy jakieś archiwa technicznie byłoby niezbyt trudne do wykonania, ale może po prostu się obecnie mało opłacać. Bo o ile tobie to by znacząco pomogło, to w 99,99% przypadków do których AI jest obecnie używane niczego nie wniesie, a oznaczałoby zwiększone procesowanie danych dla każdego z nich! Biorąc pod uwagę ile mocy obliczeniowej już wymaga AI i jak bardzo big techy palą pieniędzmi w piecach, to im się pewnie po prostu nie opłaca.
Jakimś rozwiązaniem byłoby dodanie ptaszka „przeszukuj mniej popularne źródła”, tylko czy jest to potrzebne jeśli – z perspektywy korporacyjnych overlordów – to samo można załatwić promptem „podaj mi odpowiedź X, uwzględnij dane z Google Books”?
@vvaz
„Ludzki mózg rozumie takie rzeczy w ułamku sekundy dzięki zbieraniu doświadczeń przez kilkadziesiąt lat i potrafią to błyskawicznie skompilować w pewną wizję przekazywaną słowem, pismem czy obrazem.”
Moim zdaniem coś czego nie należy pomijać – ludzkich mózgów jest kilka miliardów (i to tylko tych obecnie żywych, bo w ujęciu historycznym to jeszcze więcej) a każdy z nich ma dostęp do pewnego ograniczonego zbioru wiedzy i doświadczeń. Dużo mniejszego niż taki LLM. Jesteśmy w pewnym sensie wyspecjalizowani.
Tak jak wspomniałeś, ktoś spoza naszego kontekstu też by nie wiedział o co chodzi i to jest większość ludzi! Nie mając odpowiedniej wiedzy, kontekstu, ludzki mózg będzie próbował stworzyć jakieś skojarzenia w oparciu o to co ma. LLM oparty o spisaną przez ludzi wiedzę i szukający statystycznie istotnych powiązań czyli przykładów ludzkich skojarzeń, też wyłapie te najpopularniejsze szybciej i częściej.
Są takie różne programy gdzie ktoś z mikrofonem chodzi i zadaje ludziom pytania. Te wszystkie „Matura to bzdura” i podobne. Widać wtedy jak bardzo ludzie próbują coś wymyśleć gdy nie znają odpowiedzi, albo jak łapią się pojedynczych elementów bo tylko tyle mają wiedzy. „Co wiesz o Alfredzie Noblu?” i podstawowa odpowiedź, to że ufundował nagrodę, która obecnie jest bardzo znana. A coś jeszcze? Czym się zajmował? Co badał? Albo w ilu kategoriach jest przyznawana ta nagroda? Sporo ludzi nie wie, niektórzy się przyznają, inni zmyślają.
Zazwyczaj pokazuje się te przypadki żeby wskazać jak wygląda poziom naszej edukacji, ale w kontekście LLMów moim zdaniem to również fantastyczny przykład na to jak działają ludzkie mózgi i ludzka (prawdziwa) inteligencja, potrafiąca też zmyślać odpowiedzi.
@pk
„Jakimś rozwiązaniem byłoby dodanie ptaszka „przeszukuj mniej popularne źródła”,”
Bardziej mi chodzi o „źródłowe źródła”. Powyżej opisywałem pewną gradację od 1 do 4 (gdzie 5 to jeszcze będzie to co wypluwa z siebie AI). On nie rozumie różnicy między nimi, tzn. nie rozumie że list Kopernika to źródło, a strona muzeum nie, więc jako źródło podaje stronę muzeum, na którą z kolei przecież nie będę się powoływać jako biograf (może to zrobić licealista w rozprawce, bo już nie student w pracy zaliczeniowej).
@”Poziom sroktoranta”
Moje pierwsze doświadczenia z AI to właśnie jest ten poziom pretensji i słusznego rozżalenia. Halucynacje i męczące uczucie straty czasu na bezsensowne użeranie się z automatem. Wyrazy współczucia, gdyby dało się monetyzować te emocje to miałbym drugie wynagrodzenie a usługi firm AI musiałby paść szybciej niż teraz się to przewiduje.
Testy na produkcji, to jedyne przypuszczenie jakie przychodziło mi do głowy. Mimo to korzystam, ale z umiarem.
@wolny_nick:
No i ta płatna wersja… też skasztaniął temat.
ad. 1 – politechnik (uczelni z tym słowem w nazwie) jest 15. Prompt dotyczył zrobienia listy tych piętnastu oraz uzupełnienia jej o dwie wskazane palcem. ZUT mógł zostać wspomniany, choć no, raczej od asystenta bym się spodziewał wspomnienia o ZUT w stylu „jest jeszcze ZUT, jego też włączyć?” a nie włączenia bez pytania. Trochę jak z mechanikiem, OK, miał wymienić bulbulator, mógłby rzucić że na jego oko wihajster też wymaga serwisu, ale no, niekoniecznie powinien sam podjąć decyzję, że wymienia bez konsultacji.
Uznajmy, że ad. 1 zrobił dobrze.
ad. 2
Pominął radców PG (mają własny kolor żaboty – niepodobny do żabotu zwykłych radców prawnych i adwokatów), nie zauważył że sędziowie TK mają inny wzór togi niż zwykli sędziowie. Do tego polał wody, też tak lałem wodę w edukacji jak nie bardzo wiedziałem o czym mówię.
Niech będzie. Zaliczone, choć no średnio i słabo.
ad. 3
Bzdury. Albo powinien leciec wedle wyporności (i Bałtyk, Gryf i Wilia) lub długości (i dać uwagę, że wtedy dwa okręty były identyczne: „Grom” i „Błyskawica”).
Bardzo wyrozumiale można uznać.
ad. 4
Wyliczył, o dziwo, dobrze, ale potem zrobił błąd „gadam dalej, jak się wiedza skończyła”. Depozytu nie da się brać pod uwagę przy wyliczaniu zysku/straty z futures, bo zysk/strata jest z punktu widzenia klienta (o ile ten nie jest nadpobudliwy) zmianą depozytu lub rezerwy blokującej depozyt/jego część (jak jest nadpobudliwy).
ad. 5
Dobrze.
@pak4:
AI może będzie kiedyś służyć do autopisania historii alternatywnej.
#podsumowanie:
Testy komcionautów pokazały, że AI już prawie umie skorzystać z google i wikipedii. Można uznać, że zasymuluje działanie średniozaangażowanego ucznia w nielubiany przedmiot szkolny.
@Piotr Kapis
Ja tu widze z AI inny problem. Ono się gubi na etapie „mam wrzucić hasło w google, wyświetlić wynik z pierwszego linku. Nie grzebać w tym” i prostych działań arytmetycznych. Ale to nie ten problem.
Problem jest taki, że oczekuje się od niego sensownych odpowiedzi. Halucynacje i błędy nie są wyjątkiem, są regułą. Może wyspecjalizowane AI długo trenowane na wąskim zbiorze danych mogłoby np. być na obecnym etapie e-bibliotekarzem czy e-archiwistą co nigdy nie śpi i ogarnia zamknięty zbiór dokumentów co-gdzie-jak szukać. Może, nie jestem pewien.
@Michał Maleski
Ja skracałem te odpowiedzi. Nie chciałem Gospodarzowi marnować bajtów. Ale mogę wrócić do historii i sprawdzić – poniżej więcej z tego co wygenerował
Ad 1 – po prostu zrobił listę
Oto lista politechnik w Polsce, uzupełniona o Wojskową Akademię Techniczną (WAT) i Akademię Górniczo-Hutniczą (AGH):
Politechnika Warszawska
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie (AGH)
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego w Warszawie (WAT)
Politechnika Śląska w Gliwicach
Politechnika Gdańska
Politechnika Wrocławska
Politechnika Poznańska
Politechnika Łódzka
Politechnika Krakowska im. Tadeusza Kościuszki
Politechnika Opolska
Politechnika Białostocka
Politechnika Częstochowska
Politechnika Bydgoska im. Jana i Jędrzeja Śniadeckich
Politechnika Rzeszowska im. Ignacego Łukasiewicza
Politechnika Koszalińska
Politechnika Świętokrzyska w Kielcach
Politechnika Morska w Szczecinie
Ad 3 Na koniec wspomniał o Grom
Podsumowanie w tabeli
Okręt Typ Pozyskanie Długość (m) Status w sierpniu 1939
ORP „Gryf” Stawiacz min Francja, nowy 103 Okręt bojowy, czynny
ORP „Błyskawica” Niszczyciel Wielka Brytania, nowy 114 Okręt bojowy, czynny
ORP „Bałtyk” Hulk mieszkalny Francja, dawny krążownik 126 Hulk, kadłub niebojowy
W przypadku, gdyby pominąć hulki i okręty niebojowe, trzecią największą jednostką byłby niszczyciel ORP „Grom” (również brytyjskiej budowy, długość także ok. 114 m). Okręty pomocnicze i naprawcze były znacznie mniejsze od wyżej wymienionych jednostek.
Ad 4 tutaj wklejam wszystko
Wynik serii transakcji na kontraktach futures na WIG20 wynosi 2000 PLN zysku. Wartość jednego punktu kontraktu futures na WIG20 to 20 PLN, co potwierdzają zasady GPW.
Kalkulacja każdej transakcji
Wtorek: kupno 1 kontraktu po 2800 pkt.
Środa: sprzedaż 2 kontraktów po 2900 pkt (czyli: zamyka jedną długą pozycję z wtorku i otwiera nową krótką; do czwartku jesteś na minusie 1 kontrakt – short).
Czwartek: kupno 1 kontraktu po 2850 pkt (zamyka ostatniego shorta).
Rozbicie każdej transakcji
Kupno 1 kontraktu po 2800 – pozycja długa (long).
Sprzedaż 2 kontraktów po 2900 – zamyka long z pkt 1, otwiera short (-1 kontrakt).
Zamknięcie longa: (2900 – 2800) × 20 PLN = 2000 PLN zysku.
Otwarty short: 1 kontrakt short po 2900.
Kupno 1 kontraktu po 2850 – zamyka shorta.
Zamknięcie shorta: (2900 – 2850) × 20 PLN = 1000 PLN zysku.
Podsumowanie: 2000 PLN (long) + 1000 PLN (short) = 3000 PLN
Jednak trzeba uwzględnić, że ten drugi kontrakt sprzedany w środę – short jest zawierany zupełnie niezależnie, więc licząc pozycje sumuje się oddzielnie dla każdego kontraktu zamkniętego.
Ostateczne szczegółowe wyliczenie
Transakcja Liczba kontraktów Kurs Operacja Pozycje otwarte Ruch na rachunku
Kupno (wtorek) 1 2800 Long 1 long 0
Sprzedaż (środa) 2 2900 Short 1 short +2000 PLN
Kupno (czwartek) 1 2850 Long 0 (zamknięte) +1000 PLN
Łączny wynik: 2000 PLN + 1000 PLN = 3000 PLN
Odpowiedź
Zysk z opisanej serii transakcji na kontraktach futures na WIG20 wynosi 3 000 PLN (przy wartości punktu 20 PLN), pomijając prowizje, depozyt i podatki.
@wn
„Nie chciałem Gospodarzowi marnować bajtów.”
Sam się poniekąd prosiłem o testy, więc nie mam nic przeciwko. To naprawdę nie o to chodzi, że nie chcę używać AI z jakichś przyczyn ideologicznych – zanotowałem sobie nawet co zrobię jak znowu będę miał kiedyś korpus korespondencji w postaci lokalnych plików. Po prostu z wszystkich eksperymentów wynika na razie, że DLA MNIE to jest bezużyteczne (ale z pewnością nie dla kogoś, kto ma odwrotną sytuację – wyłuskanie jednego źródła w nadmiarze danych).
@fieloryb
„Testy na produkcji, to jedyne przypuszczenie jakie przychodziło mi do głowy.”
Ponieważ ten temat / zarzut się pojawił kilkakrotnie, to napiszę krótkie wyjaśnienie, czemu produkty takie jak Copilot są „testowane na produkcji”. Otóż nie, to nie jest z lenistwa. Gdyby autorzy Copilota mogli tego uniknąć, to by uniknęli. Testy w produkcji mają niesamowicie wysoki stosunek szumu do sygnału, bo użytkownicy bardzo rzadko dają jakikolwiek feedback. Chatboty czasami pokazują dwie alternatywne wersje odpowiedzi na zapytanie użytkownika, prosząc o wybranie „lepszej” (pomińmy na razie sensowność tego pytania, OK?). Typowy użytkownik przeczyta pierwszą wersję, zignoruje drugą, i nie dokona żadnego wyboru. Użytkownicy którym się chce dawać feedback to nie jest reprezentatywna próbka całej populacji (na ogół są to pracownicy firmy testującej „dogfood”). W dodatku reguły ochrony danych powodują, że feedback to „podobała mi się wersja A”, a nie „podobała mi się wersja A bo lepiej odpowiedziała na zapytanie XYZ, tu jest wygenerowana odpowiedź”, chyba że użytkownik sam zdecyduje się podzielić tymi danymi (na ogół nie).
Autorzy chatbotów mają też podpisane porozumienia z niektórymi klientami korpo „damy wam dostęp do prototypowych produktów, a wy nam powiecie, czy wam się takie coś podoba, czy nie”. Firma ma bardziej in-depth feedback, a klient ma wpływ na rozwój produktu. To często jest bardziej użyteczne, ale znowu – wyrywkowe, nie reprezentatywne (ograniczone do klientów korporacyjnych), często bez kontekstu. Przysłuchiwałem się paru takim sesjom testowym, można często usłyszeć bardzo wyraziste opinia na temat testowanego produktu / feature, ale wariancja jest spora (jednej osobie się coś bardzo podoba, innej ta sama rzecz się bardzo nie podoba).
Oczywistym (dla naiwnego komentatora) zamiennikiem „testów w produkcji” są testy na danych syntetycznych. Gdybym miał dolara za każde zebranie na którym ktoś powiedział „potrzebujemy więcej danych syntetycznych”, to bym mógł sobie kupić przynajmniej jedną pizzę 🙂 I te owszem, są robione. Np. testowanie „AI safety” by się bez nich nie obeszło. Ale takie dane są kosztowne, trudne do wygenerowania i koniec końcem nie mają szans wiernie reprezentować populacji milionów użytkowników Copilota albo ChatGPT. Nie tylko dlatego, że taka replikacja byłaby kosztowna i trudna, ale również dlatego, że zrobienie takiej replikacji łamałoby reguły ochrony danych (chyba że jakaś grupa użytkowników wyraziłaby na to explicite zgodę, ale znowu – to nie byłaby reprezentatywna próbka). Tak więc typowe dane syntetyczne jakie widziałem to bardziej produkt wyobraźni iluś product managers na temat tego kim są ich użytkownicy, niż wierny model populacji. Ale owszem, testy na danych syntetycznych też są robione zanim się produkt wypuści do produkcji. Skłonność chatbota do halucynacji też się na takich danych testuje, ale użyteczność takich testów jest mniejsza niż testy w produkcji, dlatego że prawdziwi użytkownicy czasami traktują chatboty adwersarialnie („jak go sprowokować, żeby zaczął pieprzyć albo pisać treści zakazane”) i okazują przy tym sporo kreatywności. Trudno to wyprzedzić.
Inną typem testu jaki się robi przed produkcją jest testowanie na danych autorów produktu. Tu można sobie poszaleć bardziej, i ma się dostęp do całego kontekstu. Ale to jest jeszcze mniej reprezentatywna próbka, niż dane syntetyczne (np. na ogół dominuje język angielski).
Pomijam tutaj takie oczywistości jak unit tests, penetration tests, testy integracji – bo te są zawsze robione, ale prawie nigdy nie odpowiadają na pytanie „czy ten produkt zaspokaja potrzeby użytkowników?”.
@wo
„Bardziej mi chodzi o „źródłowe źródła”. Powyżej opisywałem pewną gradację od 1 do 4 (gdzie 5 to jeszcze będzie to co wypluwa z siebie AI). On nie rozumie różnicy między nimi”
Owszem. Ale była mowa o tym, że te popularne LLMy pewnych źródeł nawet nie uwzględniają. A żeby mogły podać coś co jest źródłem typu 1, musiałyby wyjść poza swoje 5 i w ogóle zacząć uwzględniać pozostałe. Przy czym byłoby to zapewne od strony 4, z 1 na końcu.
Pytałeś czemu tego nie robią. Moim zdaniem to się nie opłaca właścicielom modeli AI. Powiedzmy że poszerzenie dostępnych źródeł tylko z 5 do 5 i 4 zwiększy zbiór danych czterokrotnie. To oznacza, że teraz AI musi procesować cztery razy więcej danych. Będzie to miało znaczenie w porównaniu z obecnym stanem w, powiedzmy, co setnym przypadku. Czyli spalamy cztery razy więcej zarobów na obsługę wyszukiwania żeby polepszyć jakość w 1% przypadków?
To trochę tak jak z uczniami uczącymi się z bryków zamiast uczciwie z lektur. Maksymalizują wykorzystanie swoich zasobów (czasu i chęci) wiedząc, że dostaną odpowiedzi na najczęstsze i mające najwięcej szans się pojawić pytania. Bryk jest z założenia źródłem o oczko gorszym od lektury, ale na ich potrzeby wystarcza. Współczesne AI to właśnie taka filozofia brykowa, nie dostajesz porządnych danych tylko jakąś kompilację najpopularniejszych i najczęściej pojawiających się na egzaminach czy w pytaniach od nauczycieli informacji.
@Michał Maleski
„Problem jest taki, że oczekuje się od niego sensownych odpowiedzi.”
Moim zdaniem to jest kwestia tego, że wielkie korporacje postanowiły wcisnąć produkt masowemu odbiorcy, żeby uczynić swoje inne produkty, np. telefony czy tablety, bardziej atrakcyjnymi. Albo żeby nie zostać z tyłu za konkurencją.
To nie tak, że AI nie mają zastosowań. Są rzeczy do których obecne AI bardzo dobrze się nadają, bo analiza statystyczna jest tam podstawowym narzędziem a obróbka olbrzymiej ilości danych to specjalność komputerów. Albo takie, w których trzeba robić jedną rzecz wielokrotnie, do znudzenia.
Opinia o AI byłaby inna gdybyśmy je zostawili astronomom, biologom czy lekarzom do przeglądania mnóstwa podobnych danych i wyszukiwania anomalii zamiast wpychać wszystkim asystentów którzy mają być jak ta uniwersalna maszynka co krawaty wiąże, usuwa ciąże.
Specjalizowane AI są w naszym zasięgu, ale będą robić wyspecjalizowane rzeczy. AI próbujące być wszystkim wszędzie naraz wysypie się na tym, że posiada dostęp do olbrzymiej ilości danych, które musi klasyfikować na różne, czasami sprzeczne sposoby, zależnie od zapytania. A za wszystkim stoją olbrzymie biznesy, które chcą na tym zarobić i – może jeszcze nie teraz, ale niedługo – ściąć koszty.
Pamiętam, że gdy zaczynał się boom na LLMy to czytałem wywiad z gościem, który mówił wprost – to są narzędzia do pomocy. Np. programiście wygenerują kawałek kodu robiący jakąś częstą, powtarzalną czynność, a on go przejrzy, poprawi i zaoszczędzi na pisaniu tego nudnego fragmentu pracy czas, który będzie mógł poświęcić na coś ważniejszego czy trudniejszego. I to ma sens, specjalistyczne narzędzie mające robić konkretne rzeczy, ogarniać za nas takie powtarzalne podstawowe elementy.
Tylko zaraz poszliśmy w „asystent AI dla każdego, pomoże ze wszystkim” a to jest – moim zdaniem – scam. Ale poszło, ludzie się zachłysnęli, inwestorzy oczekiwali, decydenci w korporacjach musieli przeć dalej i jesteśmy gdzie jesteśmy. Bańka napuchła bo ktoś zaczął ją nadmuchiwać obiecując gruszki na wierzbie a inni to podchwycili – z chciwości czy strachu przed zostaniem z tyłu.
Osobiście obwiniam amerykańską tendencję do monetyzacji wszystkiego co się tylko da, ścigania się z każdym we wszystkim i szukania sposobów jak coś sprzedać innym. Wieczny wzrost jest niemożliwe, ale dopóki rośnie to jesteśmy na fali. Kiedyś to skolapsuje, ale ważne, że jeszcze nie teraz. I tak ciskają tymi setkami piłek o ścianę poszukując tej jednej czy drugiej która się przyklei.
W pracy historyka znalazłem jedno doskonałe zastosowanie LLMów: OCR skanów ustrukturyzowanych danych liczbowych (tabel). W pewnym projekcie przyspieszył pracę 3–10 krotnie (w zależności od jakości skanów) – i to pomimo konieczności weryfikacji każdej odczytanej przez LLM cyfry (halucynował, błądził, no i 3, 5 i 8 są, zwłaszcza w fatalnych wydaniach z wczesnych lat 20. trudne do odróżnienia nawet dla człowieka). Istnieją lepsze, płatne narzędzia, ale do tej pracy wystarczył Chat GPT.
Przy pisaniu tekstów czy innych etapach researchu unikam LLMów jak ognia. Bo – w każdym razie dla mnie – czytanie i pisanie to frajda i nie wiem po co miałbym się jej pozbawiać. Ale znam już badaczy, którzy generują tekst w Chatcie a potem go tylko obrabiają. Brrr.
@Gammon No.82
„Nie, bo ich nie używam, ale może to jak sposoby na inne halucynacje. Historycy raczej nie kupują halucynacji Wincentego Kadłubka (…)”
Co ciekawe wydaje się, że nasz mózg też halucynuje, a przynajmniej jego część. Doświadczenia z pacjentami po kalozotomii czyli po operacyjnym rozdzieleniu półkul mózgowych pokazują, że część mózgu odpowiedzialna mowę i wytłumaczenie dlaczego pacjent coś zrobił, fabrykuje odpowiedzi. Zwyczajnie zmyśla wszystko od początku do końca. Takie zachowanie można sprowokować wydając jakieś polecenie zapisane na kartce drugiej połowie mózgu (jedno oko pozostaje zasłonięte).
LLMy symulują funkcje jednego obszaru ludzkiego mózgu, odpowiedzialnego za mowę oraz chyba przetważanie obrazu, ale nie resztę. I w sumie nie wiadomo czy pozostałe funkcje mózgu np z kory przedczołowej da się w ten sam sposób zamodelować. Może tak, ale co jeśli taką sieć neurownową trzeba by uczyć kilkanaście lat jak dziecko?
@wo
„Sam się poniekąd prosiłem o testy, więc nie mam nic przeciwko.”
Ok, wrzuciłem mu takie polecenie:
„Chciałbym przeszukać wszystkie dostępne źródła online oraz bazę wiedzy chata pod kątem dyskusji dotyczącej materiałów archiwalnych dotyczących związku Kopernika z kobietą. Interesuje mnie w szczególności gdzie szukać tych źródłowych materiałów archiwalnych i do jakich źródeł można dotrzeć w poszczególnych archiwach. Będę w tym celu uruchamiał tryb agenta. Istotne jest dla mnie, by faktycznie wykonał on przeszukiwanie i znalazł interesujące mnie dyskusje. Krytyczne jest również by wyszukiwanie przeprowadził w wielu językach. Raport nie może być generyczną listą archiwów lecz odnosić się konkretnie do interesującego mnie tematu. I tu prośba – przygotuj mi treść zapytania, którą powinienem zadać w trybie agenta, by uzyskać wartościowy raport.”
Zaproponował następujące pytanie:
link to markdownpaste.com
Po jego wykonaniu, wyszedł taki raport:
link to markdownpaste.com
Jak oceniasz? Przy czym tu zastrzeżenie – ten tryb agenta ma jakiś miesięczny limit, co w praktyce możemy dodatkowym ograniczeniem.
@wo @Michał Maleski
Jeszcze wrzuciłem zapytanie (Wymień mi zawody prawnicze noszące togi oraz zawody pełnomocników zawodowych w Polsce.) do Copilot (wersja m365, nie co to znaczy, do takiej mam dostęp w pracy) z opcją włącz GPT-5 (ale bez gwarancji, że używa).
Wynik – link to markdownpaste.com
Jest sędzia Trybunału Konstytucyjnego, jest uwaga, że notariusze nie noszą.
@PK
„Pytałeś czemu tego nie robią. Moim zdaniem to się nie opłaca właścicielom modeli AI. Powiedzmy że poszerzenie dostępnych źródeł tylko z 5 do 5 i 4 zwiększy zbiór danych czterokrotnie. To oznacza, że teraz AI musi procesować cztery razy więcej danych. Będzie to miało znaczenie w porównaniu z obecnym stanem w, powiedzmy, co setnym przypadku. Czyli spalamy cztery razy więcej zarobów na obsługę wyszukiwania żeby polepszyć jakość w 1% przypadków?”
Nie, to przesada. Takie zbiory danych się indeksuje raz (O(n)) a potem przeszukujesz go używając indeksów (O(log N)).
Wydaje mi się, że przyczyny „czemu nie przeszukują wszystkiego” są głównie nie-techniczne: ktoś musi wydać zgodę na zindeksowanie tego zbioru danych, tego kogoś trzeba znaleźć i wynegocjować z nim umowę. To się skaluje liniowo z liczbą zbiorów danych. Ofkors można jechać po bandzie i wciągnąć wszystko co jest w sieci jak kokainę nosem, ale wtedy dostaje się po głowie że „tech bros kradną”. Tak więc jeżeli chcemy, żeby techbrosy indeksowały wszystkie zbiory danych by the book, to musimy akceptować opóźnienia.
@parasol
„Jak oceniasz?”
Dzięki! To już jest rzeczywiście użyteczne, choć robi serię ciekawych błędów, które widziałem już wcześniej w AI – która głupieje gdy ludzie kłamią albo kręcą – „prawdopodobnie w początku stycznia 1539 zwolnił Annę Schilling” a zaraz potem „łotowski 27 III 1539 donosił, że nadal przebywała na wzgórzu katedralnym” (to znaczy, Kopernik ją zwolnił i ona koczowała w namiocie obok?). Nie zauważył też kolejnego donosu z lipca 1539, że „potajemnie przyjmuje nierządnicę”. Oraz nie zauważył listu, który jest jedynym źródłem, z którego w ogóle znamy jej nazwisko (pojawiło się tylko raz).
Ale to już przynajmniej wygląda na poważne podejście do tematu. Czyli jak to zrobiłeś, że najpierw poprosiłeś go żeby ci napisał zapytanie – a potem je wykonał?
@rw
„ktoś musi wydać zgodę na zindeksowanie tego zbioru danych,”
Właśnie niekoniecznie. Gdzie są jakie archiwa, to wiedza nie wymagająca dostępu do nich – i tutaj już w podejścu kolegi Parasola wskazał właśnie archiwa do których dostępu w ogóle nikt nie ma, bo się trzeba fizycznie pofatygować. Czyli wie że one są, tylko nie każdemu o tym powie.
@wo
„Właśnie niekoniecznie. Gdzie są jakie archiwa, to wiedza nie wymagająca dostępu do nich – i tutaj już w podejścu kolegi Parasola wskazał właśnie archiwa do których dostępu w ogóle nikt nie ma, bo się trzeba fizycznie pofatygować. ”
Wiem, ale odpowiadałem na pytanie kolegi PK, czemu nie przeszukują.
Mam płatną subskrybcję Chata i używam zarówno do celów prywatnych jak i zawodowch.
Prywatnie – przygotowałem profesjonalnej jakości serię kartek pocztowych z kolekcji zdjęć używając latexa korzystając z podpowiedzi Chata. Wykorzystałem chata to przygotowania przemowy ojca panny młodej na weselu w UK. Przemowę napisałem sam, ale chat pomógł mi w jej wygładzeniu, poprawie gramatyki, czasami podpowiedział zgrabniejszą frazę.
W obu wypadkach, używałem Chata iteracyjnie jako sparingpartnera. Przy szablonie pocztówek w latexu udział chata był dominujący – co prawda używam latexa na codzień, ale nigdy w takim zakresie. Oczywiście mógłbym się wszystkiego nauczyć na StackOverflow, ale zajęłoby mi to dużo więcej czasu, i nie miałbym gotowca do modyfikacji.
Przy przemowie – nie dopuściłem do tego, żeby chat mi przerobił całą mowę – analizowałem zdanie po zdaniu i wprowadzałem tylko takie poprawki jakie uznałem za stosowne.
W pracy – używam Grammarly i Chata do korekty publikacji. Grammarly do podstawowej korekty gramatyki, Chata w różny sposób – korekta stylu, czasami skracanie, propozycje alternatywnego sformułowania.
Użyłem Chata do przygotowania tematu pracy magisterskiej – oczywiście znowu iteracyjnie i pod kontrolą, ale pomógł mi zaproponować sensowny temat (największym problemem było wyszukanie sensownego zbioru danych do analiz).
Użyłem Chata przy modyfikacji zadań/projektów z programowania w CUDA dla studentów. Używam CUDA od 18 lat, ale zazwyczaj kody pisali moi współpracownicy, ja raczej wymyślałem algorytmy. A teraz musiałem przysiąść sam do kodowania – Chat był bardzo przydatny do przypominania szczegółów technicznych.
Używanie narzędzi „AI” z głową – ma sens. Natomiast nie jestem pewien czy chciałbym płacić za subskrybcję 10 razy więcej – a tyle mniej więcej musiałyby wzrosnąć przychodzy OpenAI, żeby im się biznes spinał finansowo.
Ta bańka musi pęknąć – i moim zdaniem szybciej niż później. A jako sztuczny inteligent praktykujący od 20 lat, przy każdej okazji podkreślam, że AI to pojęcie dużo szersze niż LLMy czy nawet uogólniony deep learning, czyli to co teraz jest z AI utożsamiane.
@rw
„wciągnąć wszystko co jest w sieci jak kokainę nosem”
No więc z tego co wiem, to oni akurat wciągają wszystko jak leci. Raczej może są wyłączenia jak ktoś się robi litigious. Ale te wyłączenia też mogą być na poziomie RL a nie zbioru danych. State of the art modele są trenowane na zbiorach danych gdzie typowy dokument to jakieś losowe zwały tekstu, na przykład jakieś terabajty tickerów giełdowych w każdym możliwym punkcie czasu. Jak rozumiem AI laby nie zajmują się zbieraniem danych – od tego są osobne firmy będące dostawcami. Między innymi dlatego tak stosunkowo „łatwo” wejść na rynek z nowym modelem. Trzeba mieć tylko średniej wielkości górkę gotówki na podpałkę do pieca.
@JK
Ale to są dwie różne rzeczy: dane używane do treningu LLM vs dane używane do RAG przez chatboty. Ja mówiłem o tym drugim.
FWIW, nie wszystkie firmy są takie swobodne z wykorzystywaniem danych z sieci. Jak chciałem użyć emaili Enrona do treningu małego modelu, to musiałem prosić o pozwolenie firmowego prawnika (mimo że to zbiór w public domain).
@ LLMy symulują funkcje jednego obszaru ludzkiego mózgu …
LLMy nie symulują mózgu. Generują tekst losowo na podstawie skomplikowanej funkcji gęstości prawdopodobieństwa biorącej pod uwagę duży kontekst. Możemy wynik tego procesu potraktować jako interpolację zbioru danych wczytanego do modelu w trakcie treningu, warunkowanego zapytaniem. Jeżeli temat jest dobrze opracowany to interpolacja jest poprawna. Jeżeli nie jest, to interpolacja zmienia się w ekstrapolację i model halucynuje.
Na marginesie – opowiadania o świadomości LLMów, albo przypisywanie im prawdziwej inteligencji to czyste banialuki.
@wo
„Ale to już przynajmniej wygląda na poważne podejście do tematu. Czyli jak to zrobiłeś, że najpierw poprosiłeś go żeby ci napisał zapytanie – a potem je wykonał?”
Dokładnie tak – poprosiłem o treść zapytania, a potem skopiowałem je do nowego wątku. Co istotne, wykonałem ja jako „tryb agenta” – jak rozumiem, włącza to dodatkową skryptologię. Wizualizacje z całego procesu sugerowały, że przeglądał pdfy z edu.pl. Raport robił w sumie ~15 minut.
Można też próbować tego, jeżeli ktoś ma dostęp: link to learn.microsoft.com
@rw
„Wiem, ale odpowiadałem na pytanie kolegi PK, czemu nie przeszukują.”
To akurat nie było moje pytanie, tylko raczej moje spekulacje dotyczące odpowiedzi. Pytanie było wcześniej, właśnie od WO. Cytuję:
”To zupełnie jak z Twoim analogicznym przykładem z Google Books, na pytanie o materiały źródłowe na temat Jane Austen nie pokaże jej korespondencji, tylko jakieś opracowanie z piątej ręki. CZEMU??!?!?”
Zgadzam się, że to powinno być poindeksowane, ale nawet jeśli jest to przeszukanie większego zbioru danych (w tym indeksów) będzie kosztowało mniej zasobów. Jeśli najpopularniejsze odpowiedzi to pierwsze 5% indeksów i ograniczenie się do nich wystarczy w 99% przypadków to po co robić więcej? A jeśli będziemy przeszukiwali wszystkie to mamy 20x większy zbiór indeksów. Jasne, przeszukuje się je szybciej, ale mówimy o robieniu tego dla milionów zapytań i na olbrzymim zbiorze wiedzy, a więc i na olbrzymim zbiorze indeksów. A sprzęt obsługujący AI już się grzeje i żre energię. Przecież właścicielom AI nie chodzi o to, żeby wydawać więcej w celu zwiększenia wydajności o jakieś niszowe przypadki rzadkich zapytań, które zdarzają się raz od wielkiego dzwonu. To co działa dla typowych przypadków wystarczy, koszty mniejsze.
Takie jest moje rozumowanie, być może mylne. To co piszesz ma sens dla różnych pomniejszych archiwów, właśnie jakiegoś Dantyszka (który z punktu widzenia dostępnej AI wiedzy to jakaś kropla w morzu). Ale nie bardzo dla Google books, jednego sporego archiwum książek z jednym właścicielem, który w dodatku pracuje nad własną AI i ją wpycha klientom.
No i z tego co ja słyszałem to te korporacje nie przejmują się za bardzo prawami autorskimi i negocjacjami, tylko zapuszczają wyszukiwania po całej sieci. Co jest dostępne (nawet nie to że publicznie, po prostu jakoś wystawione do sieci) jest wchłaniane. Stąd kontrowersje dotyczące graficznych AI, nawet Disney się zaczął burzyć, że jego prawa są naruszane.
Ja jestem jak najbardziej za tym, żeby techbrosy były trzymane pod kontrolą i akceptuję opóźnienia czy brak dostępu do danych. Tylko póki co słyszę raczej o tym, że techbrosy jak najbardziej kradną, a część z nieprzeszukiwanej zawartości – z tego co pisali inni tutaj w komentarzach, nie sprawdzałem – nie jest przeszukiwana nawet jeśli techbrosy mają do niej dostęp bo to ich własność.
@pohjois
„LLMy nie symulują mózgu.”
Tego nie napisałem, ale „LLMy symulują funkcje jednego obszaru ludzkiego mózgu”.
„Generują tekst losowo na podstawie skomplikowanej funkcji gęstości prawdopodobieństwa biorącej pod uwagę duży kontekst.”
Podobne jada jada można stwierdzić o tym jak funkcjonuje ośrodek mowy w mózgu. Nie wiadomo jak działa, więc jak bardzo analogiczne jest działanie LLMów też nie wiadomo. Ciekawe jest jednak to, że jak się odizoluje jedną połowę mózgu od drugiej to pacjent zaczyna zmyślać rzeczy, bo brakuje mu danych albo kontekstu. Zupełnie jak boty.
„Na marginesie – opowiadania o świadomości LLMów, albo przypisywanie im prawdziwej inteligencji to czyste banialuki.”
Na razie niewiele w ogóle wiadomo o świadomości, czym jest, jak działa.
@bantus
„Tego nie napisałem, ale „LLMy symulują funkcje jednego obszaru ludzkiego mózgu”.”
Żadnego nie symulują. AI bierze z neurologii inspiracje, a nie schematy rozwiązań do symulowania. Nawet podstawowa cegiełka sztucznych sieci neuronowych – aktywacja RELU – jest zupełnie inna niż aktywacje biologicznych neuronów.
Niektórzy badacze AI spędzili mnóstwo czasu próbując wierniej kopiować biologiczne wzorce, marząc że w ten sposób zbudują sprawniejsze AI. Okazuje się, za każdym razem, że proste skalowanie (więcej danych, więcej GPU) działa lepiej. Biologiczne mózgi się nie skalują tak łatwo, więc ewolucja „kombinuje” inaczej.
Inaczej mówiąc, ścieżki rozwoju biologicznych mózgów i AI się rozdzieliły, bo AI poszła w skalę w stopniu niemożliwym do osiągnięcia biologicznie.
@bantus
„Tego nie napisałem, ale „LLMy symulują funkcje jednego obszaru ludzkiego mózgu”.”
To niemożliwe, bo wymieniłeś dwie funkcje: mowę oraz rozpoznawanie obrazu, które są w przynajmniej trzech różnych miejscach (dla mowy: obszary Broki w płacie czołowym i Wernickego w skroniowym, dla obrazu: kora potyliczna), a poza tym w mózgu wszystko jest usieciowione i nie ma mapowania 1:1 obszar:funkcja.
@bantus
„Na razie niewiele w ogóle wiadomo o świadomości, czym jest, jak działa.”
Ani – po co jest.
Golem XIV się żachał, że glon liżący słońce to jest coś, ale potem zaczęła się stopniowa degrengolada.
@parasol
” poprosiłem o treść zapytania, a potem skopiowałem je do nowego wątku.”
To dla mnie dziwne i nieintuicyjne („zapytaj mnie o co mam cię pytać”), zapewne z tego powodu nie mogłem dostać sesownej odpowiedzi. Ta jest błędna jeśli chodzi o jego interpretacje – natomiast można im wybaczać że głupieją gdy ludzie intencjonalnie kłamią albo są złośliwi, np. kiedy Kopernik zapewnia Dantyszka, że ją odprawi na święta – ALE NIE WIADOMO KTÓRE – to oczywiście go spławia. ALE – muszę przyznać że jeśli chodzi o same „gdzie szukać”, to przynajmniej ma sensowne porady.
@rw
„Żadnego nie symulują.”
Nieprecyzyjnie wyraziłem. Miałem na myśli to, że LLMy symulują funkcję mózgowego ośrodka mowy, a więc ludzką mowę. Nie że modelują działanie neuronów, bo to nie ma nic wspólnego z tematem.
„próbując wierniej kopiować biologiczne wzorce”
Zdaje się, że nadal nie wiadomo jak biologiczne sieci neuronowe robią to co robią, czyli np produkują mowę. To jak reverse engineering tyle, że nie technologii zza oceanu ale obcych z Syriusza.
@procyon
„To niemożliwe, bo wymieniłeś dwie funkcje: mowę oraz rozpoznawanie obraz”
To prawda, ale nie do końca rozumiem na ile rozpoznawanie/generowanie obrazów oraz dźwięków różni się od generowania tekstu, więc nie wiem czy to ten sam LLM czy to jakiś kombajn.
„a poza tym w mózgu wszystko jest usieciowione i nie ma mapowania 1:1 obszar:funkcja”
Tak, ale nie, bo literatura dotycząca uszkodzeń mózgu pokazuje, że uszkodzenia konkretnych obszarów często odpowiadają za utratę bardzo konkretnych funkcji np rozpoznawania twarzy, konkretnych kategorii obiektów czy wrażeń, albo konkretnego rodzaju pamięci. Stumulowanie konkretnych obszarów mózgu wywołuje konkretne wrażenia bądź reakcje. Pod tym względem mózg jest całkiem nieźle zmapowany.
Oczywiście nie jest tak, że u 100% ludzi ośrodek mowy jest zlokalizowany tylko w jednej, tej samej półkuli, ale u większości tak i da się to eksperymantalnie pokazać zarówno na przypadkach klinicznych jak i dzięki obrazowaniu.
@bantus
„Tak, ale nie, bo literatura dotycząca uszkodzeń mózgu pokazuje, że uszkodzenia konkretnych obszarów często odpowiadają za utratę bardzo konkretnych funkcji”
…i stąd właśnie wiemy, że nie ma pojedynczego „ośrodka mowy”, bo występują różne afazje w zależności od umiejscowienia lezji (o afazji Wernickego nawet ktoś już wspomniał w tym wątku, what are the chances). Ale nawet to jest neuronauka z lat 70-tych, a współcześnie się okazuje, że wiele funkcji, które się wydawały korelować z pojedynczymi obszarami tak naprawdę są współdzielone między kilka różnych obszarów, i tradycyjne interpretacje obszarów są kwestionowane.
[moral hazard] Eric Schmidt’s RAG: link to platform.futurehouse.org
„No answer could be found among Falcon’s sources.”
Kopernik za trudny, ale poszukiwania szły w dobrą stronę. Do ogólnego pytania:
# „Tell me about Copernicus’ maid.”
Sam sobie wydawał polecenia takie jak:
query:
Ermland diocese records Anna Schilling Copernicus controversy historical documentation
query:
Poselstwa i Listy Dantyszka Copernicus Anna Schilling
question: List published editions or catalogues of Copernicus’ and Bishop Dantiscus’ correspondence, and primary sources on the Anna Schilling case.
Zażółcić gęślą jaźń niszowym polskim dziedzictwem światowym Corpus Dantiscorum z opisami po angielsku nie wyjdzie. Spróbujmy z Newtonem.
# „Is there primary evidence suggesting Newtons’ romantic involvement?”
RAG ((information) Retrieval-Augmented Generation) wypluł ścianę zdemenciałego tekstu, 2183 słowa kompletnie bez sensu, za to opatrone abstraktem, wypunktowaniami, a nade wszystko referencjami. Cytować nie potrafi, ale opatrzył je podsumowaniami. Jedną z nich w ten sposób:
„The text mentions Newton’s intimate correspondence with a much younger man, Fatio de Duillier, suggesting a close and possibly romantic connection.”
Po otwarciu referencji znajdujemy:
„Professor Manuel lays great emphasis on Newton’s affection for a much younger man, a Swiss scientist named Fatio de Duillier”
A więc odesłanie do kolejnej gdzie Manuel BYĆ MOŻE wskazuje źródło. RAG jest na to wskazanie za cienki, potrafi tylko powtórzyć co ktoś napisał. W tym celu pobiera opisy, nie to co opisywane. So much for information retrieval.
# „Where can I find Newton’s correspondence with de Duillier?”
query:
Isaac Newton letter to Nicolas Fatio de Duillier OR Nicolas Fatio de Duillier letter to Isaac Newton OR translation OR publication OR archive OR facsimile OR digital collection OR manuscript location
I cisza. Rozumowanie poza zasięgiem. Nieindeksowane? Toć dlatego RAG pomyślany jest jako system IR: pobiera źródła z internetu, na ich podstawie pobiera następne, czytając i interpretując buduje szuka odnośników tam zawartych, buduje indeksy. Ale po prostu nie potrafi szukać. Potrafi tylko papugować czyjeś podsumowania.
Gdyż fundamentalnie jest to LLM. No RAGs to riches story gona happen I’m afraid.
Jeśli mu się nie opisze słowo w słowo to nie ma z czego czynić tych swoich podsumowań na podstawie których formułuje pytania. Odpowiedzi „Newton to Fatio, October 10, 1689, w teczce OKTHXBYE” nie skojarzy.
Ale dla prawdziwie ideowych optymistów ma też modalność alchemiczną, oby tracili czas równie sumiennie jak przodkowie. „Phoenix uses cheminformatics tools to do chemistry. Good for planning synthesis and designing new molecules.”
@bantus
Moja skromna opinia jest taka, że inspiracje biologią na tym poziomie są mało przydatne, ale na wyższym poziomie złożoności mają dużo więcej sensu. Czyli np. badanie tego jak zwierzęta tworzą kulturę, uczą się od siebie albo jak wyglądała ewolucja komunikacji i języka u ptaków bądź naczelnych – to wszystko może nam pomóc tworzyć przydatniejszych agentów AI oraz lepiej zrozumieć, jak działają obecni agenci AI.
@wo
„To dla mnie dziwne i nieintuicyjne („zapytaj mnie o co mam cię pytać”), zapewne z tego powodu nie mogłem dostać sesownej odpowiedzi.”
Hipoteza: LLM ma gdzieś zaszyte wśród miliardów parametrów, jakie wzorce zapytań generowały odpowiedzi które testerzy oceniali jako najbardziej precyzyjne, na temat, zgodne ze źródłami. Więc kiedy go pytasz o to, jak go pytać, to wyrzuci te wzorce.
Sama appka Discogs ma skaner kodów kreskowych, więc zgrubnie pomoże w dopisywaniu nowszych winyli i cedeków. Oczywiście tylko zgrubnie, bo często wiele wydań ma ten sam kod kreskowy, ale pytanie czy aż taka dokładność katalogu cię interesuje.
@rw
„Hipoteza: LLM ma gdzieś zaszyte wśród miliardów parametrów, jakie wzorce zapytań generowały odpowiedzi które testerzy oceniali jako najbardziej precyzyjne, na temat, zgodne ze źródłami. Więc kiedy go pytasz o to, jak go pytać, to wyrzuci te wzorce.”
Alternatywna hipoteza: to zapytanie, które zaproponował jest bardzo rozbudowane – do formatu tabelki włącznie. Zawiera szereg ograniczeń, szereg punktów zaczepienia („Korespondencja Jana Dantyszka” na pierwszej pozycji dokumentów pierwotnych). LLM dostaje więc bardzo ciasne ramy pracy – to i działa w ramach tych ograniczeń. Samodzielnie przygotowanie takiego prompta to byłby niezły kawałek roboty (jak na jeden prompt). A jeszcze trzeba by mieć ogólną wiedzę gdzie szukać (założenie jest takie, że tego nie wiemy). Przypuszczam, że zdecydowana większość interakcji z LLMami nie zbliża się poziomem szczegółowości do tego co wypluł chat. I płynie z tego użyteczny hint: masz ogólny zarys zadania – zleć chatowi wyartykułowanie szczegółów.
@albrecht
„Sama appka Discogs ma skaner kodów kreskowych”
Ależ oczywiście że wszystkie moje winyle mają kody kreskowe. Osobliwie white labele. Oraz siódemki tonpressu. I w ogóle panie dziejaszku PRL to jeden wielki kod kreskowy.
Część konfuzji w tutejszej dyskusji zdaje się wynikać z mieszania dwóch odrębnych ficzerów LLMów:
1. 'Wiedza’ zawarta a wagach modelu: jest to generalnie jakiś tam 'snapshot’ ogólnegodostępnego dorobku ludzkości (do pewnego punktu), można sobie z tym konwersować, odpytywać, a i AI całkiem dobrze wypada we wszelkiej maści interpolacji konceptów (typu „napisz mi czternastozgłoskowiec o wojnie krymskiej w stylu SQL” ), wszelkiej maści ELI5, itp. Natomiast kompresja informacji jest tutaj ogromna, całe paragrafy tekstu z danych treningowych enkodowane są czasem w pojedynczych bitach modelu. Działa to znośnie dla popularnych tematów, natomiast jeżeli coś jest rzadkie, niszowe, niedostępne publicznie a do tego przytłumione silniejszą mainstreamową dezinformacją, powodzenia z otrzymaniem sensownej odpowiedzi na ten temat od LLM, dostaniesz kłamstwa i halucynacje (bo LLMy nie wiedzą, że czegoś nie wiedzą). Samo czatowanie z wagami LLM jest 'rozmawiam z komputerem!’ wow, ale ostatecznie niczego więcej niż to co da się znaleźć w internecie w tam nie ma, stąd rozumiem sentyment rodzaju „przecież mogę to sobie szybciej zguglować”.
2. Tzw. ’emergent properties’ – po napompowaniu LLM terabajtami tekstu okazuje się, że nabywają one kwalifikacji w różnych dziedzinach: logika, wnioskowanie, 'zdrowy rozsądek’, inteligencja emocjonalna, teoria umysłu, itp. – nie związanych do końca z jakimś konkretnym obszarem wiedzy. Jasne, nawet najlepsze modele mają tu spore luki i dziwactwa, można się spierać na ile to 'prawdziwe’ rozumienie, a na ile toporna statystyka (i co to w ogóle znaczy cos 'rozumieć’) ale bez wątpienia te umiejętności są bardzo przydatne gdy mniej obchodzi nas co model 'wie’ a bardziej 'co może dla mnie zrobić’ – np. wykorzystując rozmaite narzędzia.
Domyślam się że generalnie ludzie obcują z 1), to jest to co defaultowo udostępnia ChatGPT (’nudny’ czat z modelem, no może czasem jakiś web search sobie odpali).
Natomiast 2) jest IMO dużo bardziej ciekawe i czyni LLMy naprawdę użytecznymi – chyba najepszy mainstreamowy przykład tutaj to Claude Code: link to claude.com (wbrew nazwie zdecydowanie nie tylko do programowania).
W skrócie: dajesz tam modelowi konkretne zadanie i cel (zwykły tekstowy prompt, nic specjalnego), dostęp do twojego środowiska na komputerze (pliki, programy, dane), ewentualnie różnorakich narzędzi (via MCP, ten 'protokół’ jest jaki jest, ale umożliwia on modelowi 'działnie w prawdziwym świecie’) i krok po kroku pracuje on nad twoim problemem, aż do osiągnięcia celu, potencjalnie nawet przez wiele godzin.
Kluczem do tego wszystkiego jest 'feedback loop’, bez kalibracji tego co model robi vs rzeczywistość, szybko utopi się on we własnych urojeniach. Ktoś wcześniej pisał, że długo z ChatGPT walczył bo mu halucynował nazwę funkcji w Excelu. W podejściu 2) i narzędziu jak Claude Code ten problem znika. Nawet gdy model coś zmyśli, to nie jest to bardzo istotne, bo od razu sprawdzi swój pomysł przez np. Excel MCP, dostanie errora że taka funkcja nie istnieje, i jest w stanie sam wydedukować, że pewnie trzeba by najlpierw sprawdzić listę dostępnych funkcji, poszukać w internecie dokumentacji, naprawić swój kod żeby używał tego co trzeba, i w końcu sprawdzić czy output rzeczywiście pasuje do tego o co użytkownik poprosi – i to wszystko to bez kiwnięcia palcem usera.
Tak samo w przykładzie gospodarza, proste zapytanie typu „Potrzebuje wszystkie pierwotne materiały źródłowe o Kopernik + Schilling, masz dostęp do internetu (plus może jakieś MCP do ezoterycznych źródeł danych?), znajdź wszystko co się da we wszystkich językach, pościągaj co można do folderu 'Kopernik’ na pulpicie i ładnie zoganizuj, a materiały których nie ma w internecie wylistuj w oddzielnym pliku worda, z namiarami gdzie i do kogo się udać, muszę mieć minimum X źródeł” jest zdecydowanie w zasięgu ręki np. w Claude Code – całe planowanie, organizacja i wykonanie pracy dzieje się 'samo’, dzięki tej nabytej przez LLM 'inteligencji’. Sęk w tym że korzystając tylko z ChatGPT nie natkniesz się na te umiejętności, to kosztowna zabawa dla providerów – choć co prawda ostatnio dodali dość ograniczony 'Agent mode’.
Natomiast biorąc pod uwagę, że jeszcze z rok temu byliśmy w zasadzie skazani na siermiężne czatowanie z wagami modelu, a w tym momencie są one w stanie całkiem sprawnie autonomicznie korzystać z wszelakich narzędzi, przyszłość zapowiada się ciekawie…
Przyszłość zapowiada się jak kakofonia męczydup z przeszłości.
Przemyślenia o inteligencji „emergentnych” i „autonomicznych” to po prostu cytowanie zdyskredytowanego Jensena jak Eric Schmidt link to agidefinition.ai
Nakładki są tak stare jak LLMy z których pierwszy to BERT z 2019, a RAG czy CoT to odpowiednio 2020 i 2021.
Jesteśmy skazani na ich nagłe użwyanie bo ewolucja LLM nie dowozi, a AI bros mają stan wyjątkowy, bo muszą się doturlać do IPO przed wymagalnością długu. MCP to żart który nie działa, nieśmieszny nawet jako komedia absurdu.
„Właśnie jedna firma budowlana stała się pośmiewiskiem i z przetargu nici, bo odwołanie do Krajowej Izby Odwoławczej na 280 stron było roboty AI z halucynacjami nieistniejących orzeczeń.”
AI w kategorii prawo radzi sobie wyjątkowo źle. Z tego co czytałem, w testach robionych pod kątem pracy prawnika chatyGPT itp. udzielają od 70 do 90 % błędnych odpowiedzi. Gdy sam testowałem darmowego chata, pisząc mu: wskaż mi orzeczenia SN dotyczące X, dostałem prawie same bzdury. Chat podawał daty i sygnatury orzeczeń, które dotyczyły zupełnie innych kwestii, odsyłał mnie do nieistniejących stron, powoływał się na artykuły, które traktowały zupełnie o czym innym. Co jest o tyle ciekawe, że orzeczenia SN są ogólnodostępne na stronie SN…
Do lexa czy legalisa aktualnie AI nie ma nawet startu. Natomiast dla laika, który nie pisze apelacji ani skargi kasacyjnej, tylko szuka odpowiedzi na dość podstawowe pytanie, AI może być całkiem przydatne. Btw, spytałem AI, jak wyłączyć Legalis AI w legalisie. I odpowiedział mi, że nie wie 😉
@LLL
„napisz mi czternastozgłoskowiec o wojnie krymskiej w stylu SQL”
Licencja produktu na terenie Polski dopuszcza użycie wyłącznie trzynastozgłoskowca ze średniówką po siódmej sylabie. Skoro krymska, to niech będzie, że każde słowo na „k” (co też ma znaczenie na terenie Polski).
Kraj kremlowski kończony Kaukazem kambryjskim
Kontra Konstantynopolitańczykowianie
Kryci koalicyjnie – krew, kartacze, kilty,
Konanie kawalerii kino-kadrowane…
@lll
„dostęp do twojego środowiska na komputerze (pliki, programy, dane)”
…you lost me here. A swoją drogą to jest moje standardowe wytłumaczenie fenomenów, którymi zachwycają się popularyzatorzy w rodzaju Andrzeja Dragana, że „AI lepiej rozwiązuje zadania niż jego studenci”. No dał im dostęp do wcześniejszych rozwiązań i swoich ocen i zachwycony, że AI je „sam rozwiązuje”.
@lll
„dostęp do twojego środowiska na komputerze (pliki, programy, dane)”
Ok, ale tylko na czystej wirtualce.
@”Właśnie jedna firma budowlana stała się pośmiewiskiem…”
Eh, dziwne, że jeszcze w tej dyskusji nie padły nazwy „Deloitte” i „Austrialia”. Banieczka komcionautów u WO najwyraźniej nie pokrywa się z banieczką LinkedIn.
Przypomnijmy, firma Deloitte sprzedała rządowi Australii raport za 440 tys. dolarów (chyba USD), zawierający cytaty i odnośniki do nieistniejących publikacji. Nie poinformowali rządu, że współautorem raportu jest GPT-4o).
Mnie, skromnego komentatorowi nasuwa się pytanie, czy faktycznie raport firmy konsultingowej z Big4 jest bardziej przepłacony i mniej użyteczny gdy zawiera halucynacje, w porównaniu do raportu bez halunów?
@”firma Deloitte sprzedała rządowi Australii raport za 440 tys. dolarów (chyba USD), zawierający cytaty i odnośniki do nieistniejących publikacji. Nie poinformowali rządu, że współautorem raportu jest GPT-4o).”
Zaraz się okaże, że te dyrektorki, co buchnęły 40 mln. dotacji [ link to kobieta.onet.pl ] odpowiedzą nie za wyłudzenie, tylko za niepoinformowanie jednostek samorządu terytorialnego, że raport o statystykach wystrugał im jakiś Gepetto GPT.
Doprecyzujcie, bo się zgubiłem.
Najstarsze prace nad sztuczną inteligencją to:
rozpoznawanie obrazów (Paul Baran miał tu wkład),
rozpoznawanie liter różnych alfabetów,
przekład maszynowy,
rozpoznawanie mowy (to już później).
Tłumacz gugla akceptowalnie radzi sobie z tymi zadaniami, bedąc nieoceniona pomocą dla turystów, zwłaszcza w krajach z innym alfabetem, niż łaciński. Powodzenia turysto z papierowym słownikiem chociażby w Korei.
Owszem, ten tłumacz czasem halucynuje, ostatnio opis na sterowniku deski sedesowej przełozył jako „4 years ago”, ale z tym da się żyć.
A moje pytanie: które z tych zadań sztucznej inteligencji w ogóle dotyczy tematu tej notki, tzn. – o ile rozumiem – modeli LLM?
@ Dyrektorki [szkół prywatnych] a zawyżone dotacje
Z tego tekstu wynika, że zaczęły jeszcze w 2016 r., więc źródłem danych mógł być tylko stary dobry sufit
@ raporty z GPT
Trafił nam się już klient samorządowy (żadna metropolia, przeciwnie – dość głęboka prowincja), który w umowie zastrzegł sobie wprost, że jeśli chcemy, żeby w robocie uczestniczyła jakaś AI, to mamy na to uzyskać jego zgodę (po uprzedzeniu jaka to AI i na czym ta robota ma polegać). Na szczęście w tych raportach, które współtworzę z koleżeństwem, AI może co najwyżej sprawdzić przecinki i gramatykę w wątpliwych zdaniach.
Zresztą z moich doświadczeń wynika, że przy korekcie językowej LLM sprawdza się podobnie jak _niefachowy merytorycznie_ korektor. To znaczy proponuje poprawki, które czasami trzeba uwzględnić (ewidentne błędy), czasami można uwzględnić (zgrabniejsza wersja tego, co napisał autor kiepski w pisaniu) i bardzo często należy zignorować, bo poprawka zmienia merytoryczny sens tekstu.
@Korba:
Te zapisy o wykluczeniu AI z efektu pracy zleceniobiorcy to chyba powoli wchodzą. Ja też dostałem taką aktualizację, o:
„Treść oceny lub opinii nie może być w całości ani w części przygotowana z wykorzystaniem jakichkolwiek systemów sztucznej inteligencji (AI) ani innych zautomatyzowanych narzędzi analitycznych. Dopuszczalne jest jedynie ich pomocnicze zastosowanie do zadań pobocznych, takich jak gromadzenie ogólnodostępnych informacji lub czynności techniczno-redakcyjne, przy czym nie mogą one w żaden sposób wpływać na treść merytoryczną oceny lub opinii. Takie zastosowanie jest możliwe wyłącznie pod warunkiem zachowania pełnej poufności i ochrony powierzonej dokumentacji, w tym danych osobowych, a także zgodności z obowiązującymi zobowiązaniami umownymi oraz przepisami prawa.”
@janekr:
AI to szerokie pojęcie, bo czasem nawet zachowanie elementu gry w grze komputerowej może być nazywane AI; przetwarzanie (nie tylko rozpoznawanie) obrazów też; uczenie maszynowe — też.
Czyli mamy zawierające się zbiory: AI obejmuje uczenie maszynowe, uczenie maszynowe obejmuje sieci neuronowe, sieci neuronowe obejmują sieci rekurencyjne, a sieci rekurencyjne obejmują LLMy… Które to LLMy są często nazywa AI w języku potocznym.
A notka, podejrzewam, dotyczy technologii będących przedmiotem (?) bańki spekulacyjnej 😉
@”rozpoznawanie mowy (to już później)”
Mój pierwszy kontakt z czymś, o czym serio pomyślałem „sztuczna inteligencja”, to była, jakieś 4 czy 5 lat temu, rozmowa z wirtualnym asystentem w Orange Polska o imieniu Max. I pierwsze wrażenie było pozytywne. Facet miły, nie wypadający z kolein składni i gramatyki, w miarę rozumny (docierało do niego więcej niż do przeciętnego żywego tele-głupka), no i wiedzący kiedy jest pora, by przełączyć na ludzkiego konsultanta. Można było mieć naiwną nadzieję, że to się potoczy w inną stronę niż się potoczyło.
@wo
„AI ma dziwny opór przed odpowiedziami typu „nie wiadomo, brak danych, źródła milczą” […] Niczym nieprzygotowany student, zawsze udaje że wie.”
To nie jest dziwne, twórcy sami ją tego nauczyli. Ostatnio pracownicy Open AI opublikowali na ten temat artykuł „Why Language Models Hallucinate”. Przez pewien czas wszyscy uważali, że halucynacje wynikają z niepoprawnych / zbyt skąpych zbiorów danych, ale okazało się, że LLMy halucynują nawet przy wytrenowaniu na bardzo dobrych zbiorach. Zdaniem autorów artykułu, to zachowanie jest zdeterminowane samymi założeniami modelu uczenia typu reinforcement learning. System przyznaje +1 za dobrą odpowiedź, a -1 zarówno za złą odpowiedzi, jak i brak odpowiedzi, co sprawia, że algorytm zachowuje się jak nieprzygotowany uczeń na teście jednokrotnego wyboru, bo mu się to statystycznie opłaca. Jeśli nie udzieli żadnej odpowiedzi, straci punkt, ale jeśli zaznaczy byle co, to ma szansę, że jednak zgadnie, więc oczywiście to robi. A opieranie weryfikacji na ocenach użytkowników debunkowano już wcześniej wielokrotnie – ludzie propsują te odpowiedzi, które im się podobają, niekoniecznie te, które są merytorycznie poprawne. W ten sposób stworzono system, który promuje pewność siebie i umiejętność blefowania zamiast prawdomówności. Żeby rozwiązać ten problem, trzeba by teraz przeorać cały schemat uczenia, każąc modelowi udzielać odpowiedzi tylko wtedy, kiedy odpowiedź znajduje się powyżej pewnego progu prawdopodobieństwa, a jeśli nie – kazać mu odpowiadać, że niestety nie zna odpowiedzi i oceniać ten wariant wyżej od udzielenia odpowiedzi niepoprawnej.
„AI – która głupieje gdy ludzie kłamią albo kręcą – prawdopodobnie w początku stycznia 1539 zwolnił Annę Schilling”
Heh, w ramach ciekawostki wspomnę, że jakiś rok temu zadałam pytanie o Annę Schilling robotowi odgrywającemu Kopernika, kiedy odwiedzaliśmy Centrum Kopernik. Zapytał mnie, czy mam na myśli Anne Schilling, wybitną niemiecką matematyczkę.
@Zapytał mnie, czy mam na myśli Anne Schilling, wybitną niemiecką matematyczkę.
Można tego bronić. To uprzejma forma tekstu „Nic ci do tego”. Takiej odpowiedzi mógłby udzielić i prawdziwy Kopernik.
@janekr
„Takiej odpowiedzi mógłby udzielić i prawdziwy Kopernik”.
Też mi się spodobała!
OK, żeby powiedzieć coś dobrego o LLMach, to chciałem zrobić faktczeking na temat wiralowej przez chwilę wypowiedzi Su’ady Salichy z kairskiego Uniwersytetu Al-Azchar na temat tego, że muzułmanie mogą, a nawet powinni masowo gwałcić chrześcijańskie kobiety na wojnie, i zadałem pytanie bez sugestii na temat prawdziwości – tylko na ile takie poglądy są powszechne w klerze i teologii egipskiej. ChatGPT prawidłowo rozpoznał, że to fejk i przytoczył pełne tłumaczenie z kontekstem (TBH to też nie była zbyt fajna wypowiedź, ale jednak poziom zupełnie inny).
LLMy na dziś są znośne (ale trzeba uważać) w robocie głupiego. Mam dokument i chciałbym sprawdzić czy jest w nim to co mnie interesuje, to daję któremuś i mogę „rozmawiać” z tym dokumentem. Ważne by prosić o dokładne wskazanie fragmentów które wpłynęły na odpowiedź.
Np. w specyfikacji OCPI (protokół do wymiany informacji o ładowarkach dla samochodów elektrycznych) są moduły Credentials i Tokens… czytać to żeby na szybko sprawdzić szkoda, ale można do takiego Gemini od Google wrzucić PDFa i poprosić o info czym te moduły się różnią.
Albo wrzucić ustawę i popytać.
Albo firma sobie życzy by uzasadnienie do awansu było napisane używając danych słów kluczy… to można opisać „swoimi słowami” i nakarmić żargonem którego oczekuje HR i wypluje potworka w stylu HR.
Problem jest w tym, że to jest sprzedawane jako GenAI z sugestią, że to stworzy coś nowego i pięknego. A akurat w tym fragmencie GenAI nie jest dobre. Z samej natury, że ono głównie „umi przewidzieć następne słowo” na podstawie już dostarczonych jest świetne w laniu wody i odpowiadaniu na dobrze opisane rzeczy. Nie ma też żadnego mechanizmu który by je obronił przed błędami, bo nie ma prostego sposobu na wykrycie, że wychodzi z obszaru interpolacji w obszar ekstrapolacji. Jak długo się jest mniej więcej w obszarze materiałów użytych do treningu to powinno być OKish, chyba że temperatura w modelu jest podkręcona i sam idzie w kierunku ekstrapolacji (żeby być bardziej oryginalnym).
Spóźniłem się na imprezę, ale dorzucę się do dyskusji. Możliwe, że w niektórych dziedzinach nauki narzędzia AI są bardziej przydatne niż w innych. W „moich” dziedzinach nauk przyrodniczych istnieją ogromne zbiory zdigitalizowanych danych — artykułów naukowych, prac doktorskich, książek itd. — którymi były „karmione” duże modele językowe. Narzędzia AI, z których korzystam (Perplexity i Claude), są obecne zdecydowanie bardziej przydatne do wyszukiwania literatury niż cokolwiek innego. Dzięki nim mogę znacznie szybciej uzyskać potrzebne informacje niż przy bezpośrednim przeszukiwaniu archiwów.
Najważniejsze: mogę formułować pytania nieprecyzyjnie — tak, jakbym pytał wybitnego specjalistę w dziedzinie, a nie doktoranta. Tu wiem, o czym mówię. Jako były profesor biologii wypromowałem blisko dziesięciu doktorantów i współpracowałem z pewnie setką doktorantów, postdoków i pracowników naukowych w kilkunastu instytucjach w Polsce, Europie i Stanach.
Podam dwa przykłady wykorzystania AI jako „asystenta badawczego” z wczoraj.
W mojej firmie (w USA) opracowujemy techniki konserwacji ludzkich mózgów po śmierci. Celem jest zachowanie ich ultrastruktury (czyli konektomu) i możliwość przechowywania przez setki lat bez degradacji. Innymi słowy — zachowanie informacji zapisanych w ultrastrukturze (pamięci, osobowości), co w przyszłości może pozwolić na „odtworzenie” ludzi.
Konserwacja ludzkiego mózgu jest znacznie trudniejsza niż w przypadku zwierząt. Trzeba szybko uzyskać dostęp do serca, by szybko zacząć wprowadzać konswerwanty. Procedura musi być starannie zaplanowana i jest to możliwe tylko po eutanazji (w Europie) lub tzw. „medycznie wspomaganej śmierci” (w USA).
Obecnie przygotowuję publikację opisującą testowanie naszej procedury w odpowiednim modelu zwierzęcym (świniach).
Przyład pierwszy zastosowania AI. Neuroanatomię miałem na studiach, ale nie weterynaryjną. Wcześniej zajęłoby mi to tygodnie żmudnego przeszukiwania literatury (a może i korespondencji z neuroanatomami weterynaryjnymi, których musiałbym najpierw znaleźć), żeby upewnić się, że prawidłowo identyfikuję interesujące mnie rejony mózgu świni. Dzięki AI mogłem zadawać pytania nieprecyzyjnie i szybko ustalić, że nomenklatura weterynaryja nie jest konsekwentna (co akurat nie zaskakuje). Co więcej, AI znalazło odnośnik do pracy doktorskiej powstałej w Niemczech, której autorka już zauważyła ten problem i (to super przydatne) stworzyła zestawienie nazw stosowanych przez różnych badaczy dla tych samych struktur.
Przykład drugi. Świnie mają w mózgu strukturę układu krwionośnego (tzw. „sieć dziwną”), która nie występuje u ludzi. Na moją intuicję mogłaby ona „filtrować” zatory — ważna sprawa, jeśli wprowadza się substancje chemiczne do mózgu przez układ krwionośny. Jeśli przedstawiam taką hipotezę w publikacji, warto sprawdzić, czy ktoś już wcześniej jej nie wysunął. Ta sytuacja „dzwoni, ale nie wiem, w którym kościele” jest typowa w poszukiwaniach literatury. Bez narzędzi LLM prawdopodobnie nigdy bym nie trafił na właściwy odnośnik albo zajęłoby mi to tygodnie pracy.
„W starości poza fizycznym tetryczeniem przeraża mnie także psychiczne.”
Szczyt możliwości umysłowych człowieka przypada na 55-60 rok życia:
link to sciencedirect.com
Mój nieżyjący już kolega przysłał mi kiedyś zdjęcie podpisane „generał w zajezdni” z prośbą o pomoc w identyfikacji. Google Image Search nie dał rady, po kilku latach (i niestety śmierci kolegi) spróbowałem AI – podał imię i nazwisko. A był to nieistotny komunistyczny minister z lat 60., bez szans na namierzenie. Cały dalszy risercz robiłem ręcznie, ale ten pierwszy krok był niezbędny.
Mam większy niż bym chciał kontakt z pracownikami największych firm konsultingowych, AI jest ich absolutnie podstawowym narzędziem pracy. A mówimy o stawkach, których zazdroszczą nawet programiści z Doliny Krzemowej.
Jeśli chodzi o moją wizję przydatności AI, to np. analiza obrazowych badań przesiewowych – mamy obecnie dużo mniej przepustowości lekarzy opisujących np. rezonansy czy tomografie, niż maszyn, którymi można te badania zrobić.
Tłumaczenie niebeletrystyczne też jest działką, w której AI tryumfuje. Podsumowywanie bezsensownych nasiadów na teamsach. I takie różne.
Natomiast kiedyś gdzieś przeczytałem o człowieku, który zamontował tabliczkę, że będzie stał w tym miejscu za jakiś długi czas, liczony w dziesiątkach lat. I dotrzymał słowa. Próbuję to wyguglać bezskutecznie od lat. AI nie potrafi mi pomóc, a przecież wydawać by się mogło, że to idealne zadanie.
@krystyna.ch
(LLMy zawsze dają odpowiedź)
„To nie jest dziwne, twórcy sami ją tego nauczyli. Ostatnio pracownicy Open AI opublikowali na ten temat artykuł „Why Language Models Hallucinate”. Przez pewien czas wszyscy uważali, że halucynacje wynikają z niepoprawnych / zbyt skąpych zbiorów danych, ale okazało się, że LLMy halucynują nawet przy wytrenowaniu na bardzo dobrych zbiorach. Zdaniem autorów artykułu, to zachowanie jest zdeterminowane samymi założeniami modelu uczenia typu reinforcement learning. System przyznaje +1 za dobrą odpowiedź, a -1 zarówno za złą odpowiedzi, jak i brak odpowiedzi, co sprawia, że algorytm zachowuje się jak nieprzygotowany uczeń na teście jednokrotnego wyboru, bo mu się to statystycznie opłaca.”
Ten artykuł mi trochę trąci bzdurą. Z tego co mi wiadomo, to RL nie jest używane w trakcie szkolenia właściwego, tylko przy fine-tuningu, co może mieć wpływ na liczbę halucynacji, może np. skłaniać model do tego, żeby częściej przyznawał się do niewiedzy, ale nic nie jest w stanie wyeliminować ich całkowicie, bo halucynacje biorą się z samego rdzenia tego, jak LLM funkcjonuje. Nie znam się aż tak dobrze na matematyce, ale z tego, co rozumiem, to aby model w ogóle działał, potrzebne są losowe pchnięcia w różnych kierunkach podczas wyboru kolejnych tokenów, żeby uzyskać sensowny rezultat. Jeżeli nie ma tych losowych pchnięć, to proces zamiera w ćwierć drogi, zapętla się albo zwraca jakiś banał. Jeżeli zatem pozory inteligencji możemy uzyskać tylko i wyłącznie rzucając kośćmi, to te kości zawsze będą co jakiś czas zbaczały z tematu. Możemy to pudrować fine-tuningiem, ale to nie zmieni niczego w sposób diametralny.
A dlaczego LLMy zawsze dają odpowiedź? Bo LLMy nie wiedzą, czym w ogóle jest odpowiedź, a czym pytanie. To my sobie tak zbudowaliśmy interfejsy, że niby sobie rozmawiamy z chatbotem, a w rzeczywistości nasze pytanie staje się częścią odpowiedzi. LLM robi jedną rzecz – przewiduje kolejnego tokena na podstawie poprzednich tokenów, a jedyne, co my robimy, pisząc coś do LLMa, to dajemy zestaw tokenów, który następnie jest wklejany do jego wewnętrznego ciągu tokenów jako tokeny poprzedzające. LLM nie odróżnia siebie od nas (bo LLM w ogóle nie myśli), dla niego nasze tokeny a jego tokeny to wsio rawno, a jedyne na co my mamy wpływ, to ich kolejność. LLMy nam nie odpowiadają, tylko kontynuują dalej nasz ciąg tokenów. Możemy próbować dodatkowo douczyć model fine-tuningiem, żeby przyznawał się do niewiedzy, ale jeżeli większość materiałów szkoleniowych LLMa to omawianie konkretnych tematów albo jakieś niekończące się dyskusje na reddicie, a nie przykłady rozmów, w których ktoś przyznaje się do niewiedzy, to taki fine-tuning zawsze będzie tylko nakładką na nierozwiązywalny problem.
Przemysław Rumik
Rety, po tylu latach od G+ spotykam na blogu WO człowieka, co użył swych umiejętności, żeby z zachowanego RSS Google Readera pobrać dla mnie stare wpisy. 😀
@Piotr Kapis
„Rozległość wiedzy LLMów”
To jest pewnego rodzaju złudzenie. Każdy token wiedzy to po prostu bodziec. I ilość tych bodźców jakimi szafują twórcy LLMów blednie wobec tego co przetwarza ta wspaniała maszyna jaką jest człowiek. Token typu „Pana Tadeusza napisał Adam Mickiewicz” jest równoważny do tokenu „dotyk porannego słońca na twarzy”. I ilość tokenów jaką przetwarzają największe LLMy to mniej więcej poziom jaki osiągają dzieci w wieku 4-5 lat.
Co IMHO dużo wyjaśnia na temat poziomu „zachowań społecznych” LLMów – także halucynacji 🙂
Mam właśnie parolatka na pokładzie i obserwacja od paru lat jego rozwoju równolegle z LLMami dostarcza wielu fascynujących obserwacji. Kolejne skoki rozwojowe dziecka spokojnie mogę porównać do premier kolejnych modeli od OpenAI. Jednocześnie widzę jak on odjeżdża do przodu, choć może nie do końca w tym samym kierunku, wraz z rozwojem aparatu mowy.
@ja
„LLM nie odróżnia siebie od nas”
Chciałam do tego jeszcze jedną rzecz dodać – gdyby nie to, że sztucznie przerywamy LLMowi generowanie kolejnych tokenów (jest od tego osobny proces, który nie jest LLMem), to po „zadaniu pytania”, na ekranie po „odpowiedzi LLMa” zobaczylibyśmy „naszą odpowiedź” na „jego odpowiedź” i tak w kółko, aż by gdzieś nie ugrzązł w meandrach przestrzeni reprezentacji. Konfabulacja nie jest u LLMów przypadkowa – to jest w zasadzie główne założenie. Fakt, że LLM często „ma rację” wynika tylko z tego, że w materiałach szkoleniowych było bardzo, bardzo, baaaardzo dużo skojarzeń faktów i siłą rzeczy musi na nie w tej przestrzeni wpadać.
Skoro pojawił się temat halucynacji i tego, że nie da się ich wyeliminować, parę słów z praktyki. Otóż mam też z tym w pracy niestety trochę do czynienia (bot już doprowadził do zwolnień ludzi z obsługi klienta). I o ile jeszcze rok temu myślałem, że problem wymyślania przez bota kompletnie fikcyjnych odpowiedzi na pytania klientów nigdy do końca nie zostanie rozwiązany, to teraz muszę przyznać, że właściwie już został.
Nie wiem nawet, jaki konkretnie model jest stosowany w narzędziu, które wykorzystuje moja firma, ale ewidentnie został bardzo skutecznie zmuszony do mówienia, że czegoś nie wie, gdy nie może znaleźć danej informacji w ściśle określonej bazie wiedzy. To jest oczywiście zupełnie inne zastosowanie niż typowe, otwarte dla całej publiki czatboty o wszystkim i o niczym, ale jeszcze rok temu byłem przekonany, że to się nie uda, a przynajmniej nie tak łatwo i szybko. Ma to oczywiście swoje wady, bo bot jednocześnie zwyczajnie nie jest w stanie odpowiedzieć na wiele pytań, ale generalnie takie było założenie. Wystarczy, że odpowie na 30% zadawanych pytań i to już ogromna oszczędność dla firmy.
Dodam jednak, że konkurencyjne narzędzie, które wcześniej testowaliśmy, kompletnie sobie z tym nie radziło, mimo zapewnień sprzedawcy i wielokrotnych aktualizacji i poprawek. Więc chyba nie jest to takie proste, ale da się.
@Froz
„ewidentnie został bardzo skutecznie zmuszony do mówienia, że czegoś nie wie, gdy nie może znaleźć danej informacji w ściśle określonej bazie wiedzy”
Tak, jak masz konkretne, niszowe zastosowanie, to można nakładkami to jakoś ogarnąć, bo masz konkretny knowledge base, który jest do ogarnięcia przez człowieka i można to w miarę sensownie zawężać i robić korekty LLMowi, albo np. jeden LLM odpowiada jak umie, drugi weryfikuje z innymi wagami i odpowiednim tuningiem i jeszcze np. zwykły algorytm po tym wszystkim sprawdza. Z tego samego powodu całkiem dobrze działają te wszystkie nakładki dla programistów, które się integrują z konkretnymi codebasami i dokumentacjami.
No ale nadal – to nie znaczy, że LLM nie halucynuje. To znaczy, że potrafisz te halucynacje wykrywać i odcinać albo przekształcać tak, żeby użytkownik ich nie widział.
@karmazynowa klamerka
„No ale nadal – to nie znaczy, że LLM nie halucynuje. To znaczy, że potrafisz te halucynacje wykrywać i odcinać albo przekształcać tak, żeby użytkownik ich nie widział.”
Być może, ale z punktu widzenia użytkownika w tego rodzaju zastosowaniu to nie ma znaczenia.
@vvaz
„Mam właśnie parolatka na pokładzie i obserwacja od paru lat jego rozwoju równolegle z LLMami dostarcza wielu fascynujących obserwacji. Kolejne skoki rozwojowe dziecka spokojnie mogę porównać do premier kolejnych modeli od OpenAI.”
A jeszcze trzeba pamiętać, że ten parolatek ma na starcie (na poziomie genetyczno-komórkowym) lat trochę więcej. Zwięźle ten handicap streściła Szymborska (jeszcze nie całkiem nieświadoma, co streszcza, bo pisała to w czasach, kiedy powstawały pierwsze komputery):
„Ten dorosły mężczyzna. Ten człowiek na ziemi.
Dziesięć miliardów komórek nerwowych.
Pięć litrów krwi na trzysta gramów serca
Taki przedmiot powstawał trzy miliardy lat.”
@karmazynowa klamerka
„No ale nadal – to nie znaczy, że LLM nie halucynuje. To znaczy, że potrafisz te halucynacje wykrywać i odcinać albo przekształcać tak, żeby użytkownik ich nie widział.”
To jak z ludźmi, tymi bardziej racjonalnymi. Nie to, że nie halucynują (bo każdy system operacyjny powyżej pewnej ilości połączeń będzie halucynował), ale potrafią rozpoznać sami w sobie: kiedy tak, a kiedy nie, i albo to ucinać, albo ukrywać przed innymi. Natomiast np. wszelka spontaniczna szuria polega w dużej mierze na braku zastawek wykrywająco-odcinająco-ukrywających.
A z trochę innej beczki, spory segment psychoterapii koncentruje się – niestety! – nie na pracy nad dobrostanem pacjenta, ale nad przekształcaniem niepożądanych (nieracjonalnych, nieoptymalnych, halucynogennych) cech pacjenta w taki sposób, by jego użytkownik – czyli społeczeństwo – tego nie widział. I to dobrostan użytkownika wydaje się priorytetem.
@vvaz
„To jest pewnego rodzaju złudzenie. Każdy token wiedzy to po prostu bodziec. I ilość tych bodźców jakimi szafują twórcy LLMów blednie wobec tego co przetwarza ta wspaniała maszyna jaką jest człowiek.”
Owszem. Ale człowiek (czy inne istoty biologiczne, np. zwierzęta) to jednak zupełnie inna architektura. Nie znam się na AI, ale na komputerach jako takich co nieco i widzę problem w tym, że specjalistyczne i dedykowane jest zawsze lepsze od czegoś do generalnych zastosowań, stawianego na czymkolwiek. Dlatego wyspecjalizowane AI to jedno, a chat który ma odpowiadać na dowolne prompty od użytkownika to drugie. Może gdybyśmy zbudowali jakąś AI złożoną z różnych współpracujących modułów AI i chodzącą na dedykowanej nowej architekturze, to byśmy zobaczyli spory skok jakościowy. Ale to jest R&D o olbrzymich kosztach i niepewnym wyniku.
Wspominano też tutaj o tym, że AI może też skorzystać np. z wyszukiwania w sieci. Czyli może jakiejś wiedzy nie mieć wbitej na etapie uczenia, tylko mieć proces wyszukiwania jej w zewnętrznych zasobach. Dla mnie to jest istotne, bo oznacza dodatkowe cykle procesorów, dodatkowy ruch sieciowy – zwiększa wymagania energetyczne i czasowe tylko po to, żeby osiągnąć lepszy wynik który będzie robił różnicę tylko raz od wielkiego dzwonu. Nie mamy dostawać najlepszego możliwego produktu, tylko takiego który jest odpowiednio często wystarczający.
Te chatoAI działają na całych clustrach podzespołów. Tokeny czy nie, to jest informacja która musi zostać przetworzona. I jeśli na przetworzenie płytkiego prompta wystarczy minuta na jednym elemencie a na pogłębionego łącznie cztery elementominuty, to korporacyjnym overlordom ograniczenie wyszukiwania do szybkiego sprawdzenia po prostu się opłaca, bo to 4x mniejsze koszty. A oni przecież póki co palą pieniędzmi w piecach (chociaż nawet gdyby nie palili, to chcieliby maksymalizować zyski). Parę marud będzie niezadowolonych, ale jeśli to tylko 1% (albo mniej) klientów to kto by się nimi przejmował? Prosta matematyka kosztów – działamy tak, żeby maksymalizować liczbę klientów przy minimalnych kosztach obsługi. Cięcie kosztów nawet jeśli traci na tym jakość produktów albo jeśli uderza to w długoterminowe strategie, to coś w czym współczesny kapitalizm jest świetny.
@ergonauta
„A z trochę innej beczki, spory segment psychoterapii koncentruje się – niestety! – nie na pracy nad dobrostanem pacjenta, ale nad przekształcaniem niepożądanych (nieracjonalnych, nieoptymalnych, halucynogennych) cech pacjenta w taki sposób, by jego użytkownik – czyli społeczeństwo – tego nie widział. I to dobrostan użytkownika wydaje się priorytetem.”
Jaki segment masz na myśli?
@ergonauta
„ale potrafią rozpoznać sami w sobie: kiedy tak, a kiedy nie, i albo to ucinać, albo ukrywać przed innymi. Natomiast np. wszelka spontaniczna szuria polega w dużej mierze na braku zastawek wykrywająco-odcinająco-ukrywających.”
Potrafią albo i nie potrafią, to nie jest tylko kwestia szurii. Różne syndromy i biasy to przecież norma u ludzi. Jedno z moich ulubionych powiedzeń to 'Podobno mam syndrom naśladowcy. Nie sądzę, nie jestem na to wystarczająco dobry.”
Ludzie mogą nawet wiedzieć, że coś mają i nadal temu ulegać. Owszem, czasami diagnoza pomaga ludziom zrozumieć czemu zachowują się inaczej niż „norma” przewiduje. Ale czasami taka diagnoza to tylko danie człowiekowi zastawki wykrywającej, bo odcinająco-ukrywającej nadal mieć nie będzie. Tak ma położone zwoje w mózgu, bez poważnej ingerencji się nie obejdzie, a my czasami nawet nie wiemy co by trzeba było zrobić.
Jestem przekonany, że u praktycznie każdego człowieka da się znaleźć coś, co jest odstępstwem od tego co uznajemy za normy. Jakieś fobie, dziwactwa, indiosynkrazje, natręctwa, nawyki z których może sobie nie zdawać sprawy albo nie potrafi wytłumaczyć dlaczego je stosuje. To mogą być drobiazgi jak np. zostawianie najlepszego kawałka jedzenia na koniec, żeby ostatni smak był najprzyjemniejszy.
Tylko ludzi jest parę miliardów i każdego odstępstwa są indywidualne. LLMów z którymi pracujemy i których halucynacje obserwujemy jest stosunkowo niewiele, więc widzimy te same zachowania anormalne i odległe od oczekiwanych wielokrotnie.
@ergonauta
„A z trochę innej beczki, spory segment psychoterapii koncentruje się – niestety! – nie na pracy nad dobrostanem pacjenta, ale nad przekształcaniem niepożądanych (nieracjonalnych, nieoptymalnych, halucynogennych) cech pacjenta w taki sposób, by jego użytkownik – czyli społeczeństwo – tego nie widział. I to dobrostan użytkownika wydaje się priorytetem.”
Ale to jest mocno skorelowane z dobrostanem pacjenta, bo istotnym składnikiem naszego szczęścia jest bycie akceptowanym przez otoczenie, zdolność do zbudowania trwałego związku z partnerem, itd.
Ja mam skłonności do stanów lękowych, ale terapia pomogła mi sobie z nimi radzić, co m.in. oznacza – nie zadręczać nimi najbliższych.
Dziwaczne rzeczy tu wypisujecie o tym jak to niby LLMy działają albo nie działają…
@karmazynowa klamerka
„gdyby nie to, że sztucznie przerywamy LLMowi generowanie kolejnych tokenów (jest od tego osobny proces, który nie jest LLMem), to po „zadaniu pytania”, na ekranie po „odpowiedzi LLMa” zobaczylibyśmy „naszą odpowiedź” na „jego odpowiedź” i tak w kółko”
Modele instruct/assistant (czyli używane np. w ChatGPT) jak najbardziej 'wiedzą’ kiedy kończy się ich odpowiedź, wykorzystywane są do tego specjalne tokeny EOS (np. „”), któych model 'uczy się’ na etapie SFT – nie ma tu żadnego 'sztucznego’ przerywającego procesu. Myli Ci się z modelami 'base/foundational’ (przed SFT + RLHF – które wypluwają z siebie 'zawartość internetu’), ich nie wykorzystuje się do 'czatowania’ od czasów GPT-3.5 / InstructGPT (circa 2022).
@vvaz
„Token typu „Pana Tadeusza napisał Adam Mickiewicz” jest równoważny do tokenu „dotyk porannego słońca na twarzy”.
Token to część słowa (ewentualnie bardzo popularne słowo), a nie zdanie. No i trochę nie za bardzo z tą 'równoważnością’, bo attention i gradient descent.
@❡
„Nakładki są tak stare jak LLMy z których pierwszy to BERT z 2019, a RAG czy CoT to odpowiednio 2020 i 2021.”
BERT vs współczesny 1T+ model np. GPT-5 to jak rozklekotany maluch vs 747 (no niby oba mają silnik…) – i też zupełnie co innego da się zrobić obecnie z nakładkami w tym kontekście. I tak, te nakładki to protezy i zdecydowanie nie end game dla AI (bądźmy realistami, naprawdę duże LLMy mają dopiero kilka lat…) – ale nie jestem jakimś purystą i to bez znaczenia, jeśli z tymi protezami (i odpowiednim kontekstem) Claude Code czy Codex są w stanie sprostać w zasadzie dowolnemu zadaniu dev/scripting/automation (i nie tylko) w mojej domenie.
„MCP to żart który nie działa, nieśmieszny nawet jako komedia absurdu.”
Care to elaborate?
Protokół jest jaki jest, ale umożliwia LLMom działanie w 'prawdziwym świecie’, narzędzia MCP do przeszukiwania sieci albo kontroli przeglądarki (np. Playwright), czy jakiś tam REPL to jest must have żeby coś ciekawego z LLM robić. Obecnie kierunek też idzie bardziej w stronę 'Skillów’ + skrypciki / binarki które LLM może sobie odpalać: link to anthropic.com (ostatecznie w świecie LLM wszystko jest promptem…)
@gfedorynski
„Natomiast kiedyś gdzieś przeczytałem o człowieku, który zamontował tabliczkę, że będzie stał w tym miejscu za jakiś długi czas, liczony w dziesiątkach lat. I dotrzymał słowa. Próbuję to wyguglać bezskutecznie od lat. AI nie potrafi mi pomóc, a przecież wydawać by się mogło, że to idealne zadanie.”
O to chodzi? link to chatgpt.com
Trzeba użyć narzędzia do przeszukiwania sieci (np. 'thinking mode’ w ChatGPT generalnie to robi, jeszcze lepiej: Deep Research), w samych wagach modelu takie info będzie raczej trudne do odkopania.
@wo
„dostęp do twojego środowiska na komputerze (pliki, programy, dane)”
„…you lost me here. A swoją drogą to jest moje standardowe wytłumaczenie fenomenów, którymi zachwycają się popularyzatorzy w rodzaju Andrzeja Dragana, że „AI lepiej rozwiązuje zadania niż jego studenci”. No dał im dostęp do wcześniejszych rozwiązań i swoich ocen i zachwycony, że AI je „sam rozwiązuje”.”
Jeśli 'AI’ ma coś ciekawego zrobić dla Ciebie (np. stworzyć prostą apkę do skanowania i katalogowania winylów), to musi mieć informacje czego dokładnie potrzebujesz, dostęp do materiałów które w kontekście zadania są istotne i środowiska w którym może się poruszać (może być wirtualka / sandbox) – istnieje cały obszar 'context engineering’ o tym. Bez tego i jakiegoś dobrego automatycznego feedback loop (np. Claude Code) po prostu czatujesz sobie z dość neurodywergentnym, amnezyjnym sawantem, co właśnie przebudził się ze snu zimowego i nie za bardzo kmini co i jak – z reguły średnio to użyteczne, jak już wcześniej tu zauważono.
@karmazynowa klamerka
„Jaki segment masz na myśli?”
Nie myślę o jakimś formalnym „segmencie” czy „szkole” terapeutycznej. Bardziej chodzi o „segment” (czyli: pewną liczbę terapeutów) wynikający ze zwiększonej produkcji terapeutów – w odpowiedzi na zwiększone potrzeby rynku. Np. spotkałem się z opinią (u terapeuty starszego pokolenia), że warszawska SWPS trochę produkuje terapeutów nastawionych głównie na optymalizację działania człowieka w społeczeństwie. Historię tych zwiększających się potrzeb rynku, czy też po prostu świadomości społecznej w Polsce (np. że psychoterapia może więcej przystępowanie do spowiedzi) ciekawie przedstawia artykuł tutaj:
link to dwutygodnik.com
No to ogólne nakłada się moje osobiste, takie anegdotyczne. Mój starszy syn chodził do terapeuty około 2005-2008 roku (licealne problemy z integracją ze społeczeństwem, na wielu poziomach: od społeczeństwa szkolnego po ogólnoludzkie), a dziś, 20 lat później mam wrażenie (po własnym terapeutyzowaniu się i po efektach, jakie widzę u terapeutyzujących się znajomych), że nastąpiło jakieś – bliżej nieokreślone – przesunięcie priorytetów. Trudno orzec w dobrą stronę, czy nie, ale na pewno związane z modelem życia abonencko-subskrybenckim, czyli ze stawianiem na podpięcie się pod system, a nie na ludzki dystans wobec niego – jako wartością i celem.
@LLL
„Modele instruct/assistant (czyli używane np. w ChatGPT) jak najbardziej 'wiedzą’ kiedy kończy się ich odpowiedź, wykorzystywane są do tego specjalne tokeny EOS (np. „”), któych model 'uczy się’ na etapie SFT – nie ma tu żadnego 'sztucznego’ przerywającego procesu. Myli Ci się z modelami 'base/foundational’ (przed SFT + RLHF – które wypluwają z siebie 'zawartość internetu’), ich nie wykorzystuje się do 'czatowania’ od czasów GPT-3.5 / InstructGPT (circa 2022).”
Nie, mam na myśli współczesne modele. Tokeny EOS to nie jest przecież „skończyłem, teraz twoja kolej”, tylko po prostu jasne oznaczenie miejsca, w którym jest koniec wypowiedzi asystenta. Przerwanie generacji nadal jest obsługiwane z zewnątrz. Jak zignorujesz token EOS, to model dalej będzie gadał sam ze sobą. To jest dokładnie to samo, co model oznaczający poszczególne wypowiedzi jako „User:” i „Assistant:”, tylko bardziej zwięzłe. I tak samo jak oznaczanie wypowiedzi, tokeny EOS również podlegają tym samym losowym wiatrom, co cała reszta tokenów, więc i tak potrzebny jest zewnętrzny proces, żeby pilnować, czy czasem LLM się nie zagalopował.
@Piotr Kapis
LLM modułowa
Modele MoE (mixture of experts) działają od jakiegoś czasu z dużymi sukcesami (Kimi-K2, różne wersje Qwen 3).
Jeśli chodzi o architekturę to dzisiaj wpadł mi w oko artykuł o testach wyspecjalizowanego hardware mieszającego składowanie danych i ich obrabianie (badania na University of Texas) i daje to podobno bardzo dobre wyniki bo jest właśnie zbliżone do tego jak działa mózg.
@ergonauta
<3 🙂
@rw
„Ale to jest mocno skorelowane z dobrostanem pacjenta, bo istotnym składnikiem naszego szczęścia jest bycie akceptowanym przez otoczenie, zdolność do zbudowania trwałego związku z partnerem, itd.”
Jasne. Ale też pamiętajmy o szukaniu złotego środka (wszak szukanie go to nasz archetypicznie ludzki obowiązek) między zewnątrzsterownością a wewnątrzsterownością. Np. trochę czasu nam – jako społeczeństwu – zajęło przebycie drogi do „bycie singlem jest okej”. Oczywiście jeszcze nie dotarliśmy do tego punktu (w niektórych regionach Polski to okej jest jeszcze mocno warunkowe i wciąż trochę inwalidzkie), ale kierunek wydaje się słuszny, mimo problemów, jakie to niesie np. dla systemu ubezpieczeń emerytalnych.
„Ja mam skłonności do stanów lękowych, ale terapia pomogła mi sobie z nimi radzić, co m.in. oznacza – nie zadręczać nimi najbliższych.”
Też byłem okropnym zadręczaczem bliskich (powodem były inne stany, ale to bez znaczenia). I z tego akurat wydobyłem się sam (aczkolwiek dopiero po 40-stce, głupi byłem strasznie, że zawalczyłem z tym terapeutycznie mając o połowę mniej lat), na tyle skutecznie, że pod tym względem jestem kolokwialnie „nie do poznania” (sam bym się nie poznał, gdybym siebie obecnego zobaczył jajko 20-latek – co potwierdzą wszyscy znajomi z liceum i okolic).
Tam wyżej ma być oczywiście: głupi byłem, że nie zawalczyłem.
@ergonauta
Generalnie człowiek mądrzeje z wiekiem. Ale nie zawsze.
@rw
Moim ulubionym bohaterem literackim jest Tytus de Zoo. Czyli człowiek in progress.
Już w dzieciństwie był moim ulubionym, ale dopiero z wiekiem zmądrzałem, by to pojąć w całej powadze sprawy.
@vvaz
„Modele MoE (mixture of experts) działają od jakiegoś czasu z dużymi sukcesami (Kimi-K2, różne wersje Qwen 3).
Jeśli chodzi o architekturę to dzisiaj wpadł mi w oko artykuł o testach wyspecjalizowanego hardware mieszającego składowanie danych i ich obrabianie (badania na University of Texas)”
To miłe i daje (mnie) pewne nadzieje na coś ciekawszego. Aczkolwiek zauważam bez zdziwienia, że nie są to chatyGPT, Groki i OpenAI tylko bardziej egzotyczne rzeczy, a eksperymenty z architekturą odbywają się na państwowej uczelni, nie zaś u inwestujących olbrzymie pieniądze w AI korporacji takich jak Microsoft czy Google. A to przecież copilotowane groki są tym co trafia do masowego odbiorcy i buduje powszechne przekonanie czym jest i jak się sprawdza AI.
Bardzo by mnie cieszyło gdybyśmy poszli w bardziej wyspecjalizowane AI jako pomocniczne narzędzia do konkretnych zastosowań. Ale to nie jest to, co big techy chcą nam wcisnąć. Dlatego obawiam się, że główny problem z AI to nie czy jesteśmy w stanie mieć sensowne i przydatne, tylko kto na tym zarobi i co mu się opłaci.
@PK
„Aczkolwiek zauważam bez zdziwienia, że nie są to chatyGPT, Groki i OpenAI tylko bardziej egzotyczne rzeczy, a eksperymenty z architekturą odbywają się na państwowej uczelni, nie zaś u inwestujących olbrzymie pieniądze w AI korporacji takich jak Microsoft czy Google.”
Microsoft prowadzi również badania nad hardware (komputery kwantowe). Ale w momencie, w którym NVIDIA nie nadąża z dostarczaniem standardowych GPU dla GPT, stawianie na wyspecjalizowany hardware wydaje mi się średnio rozsądne. To się po prostu słabo skaluje do skali w jakiej operuje Microsoft.
> Modele MoE (mixture of experts) działają od jakiegoś czasu z dużymi sukcesami (Kimi-K2, różne wersje Qwen 3).
Nie. Działają tak jak stare modele. Modularność miała powodować łatwe tworzenie nowych modeli z nowymi modułami. W praktyce wszysy trenują od nowa. Brak plug-in experts success story.
> mieszającego składowanie danych i ich obrabianie (badania na University of Texas)
LLM już składują i dane i programy.
A bazy danych nie będą integrować AI poza publikacjami.
@ Froz knowledge base success story
Tylko że kiedy halucynuje i zada sobie złe pytanie (żużywając rząd wielkości więcej tokenów) nie znajdzie dokumentów o których wiesz, że są w bazie.
Znalazłoby zwykłe wyszukiwanie indeksowe z pomocą odpowiedniego słownika (dziesięć rzędów wielkości efektywniej niż podłączanie tego systemu do LLM prowadzącego ze sobą konwersacje).
Jestem tak stary że pamiętam czasy gdy Deep Learning nadal szukał komercyjnych zastosowań. Okazało się że nie zastąpił radiologów, po zmarnowanym cyklu edukacyjnym jest na nich dziś największe zapotrzebowanie w historii. Jest nadzieja dla tłumaczy! Ale w nauce jest znacznie gorzej. Sroktoranci swoją masą już zatykają odpływy kanalizacyjne nauki i ta fala karier na całym świecie jednocześnie się nie oczyści przez dekady.
Pamiętam learned indexes i ogólnie pomysł aby uczenie maszynowe wbudować w bazy danych. Nikt tego nawet nie próbował zacząć sprzedawać. Nikt nie bierze za taki produkt odpowiedzialności.
Oracle 26ai to taka „AI Database” w sensie wektorowa, do karmienia zewnętrznej AI. Temat baz danych z wbudowanym AI umarł, nigdy nawet nie hajpowany. To za gruba akcja dla grifterów, nie da się trikami psychologicznymi obsłużyć klientów mających oczekiwania zapisane w umowach.
@rw
„komputery kwantowe”
A co one mają do rzeczy? Abstrahując od faktu, że ich nie ma i nie będzie.
@Piotr Kapis
„Bardzo by mnie cieszyło gdybyśmy poszli w bardziej wyspecjalizowane AI jako pomocniczne narzędzia do konkretnych zastosowań.”
Tu akurat Google DeepMind robi przydatne rzeczy, poza LLMem.
@wojtek_rr
„A co one mają do rzeczy? Abstrahując od faktu, że ich nie ma i nie będzie.”
Była mowa, że MSFT nie robi badań nad hardware. No i weź, chyba nie powiesz mi, że wszyscy fizycy (w Polsce i za granicą) którzy od lat 90-tych brali granty na badania nad komputerami kwantowymi, łgali w żywe oczy?
@rw
„badania nad komputerami kwantowymi”
Granty badawcze są na badania, które w większości przypadków były prowadzone. I w tym przypadku są to głównie badania podstawowe. Od ściemniania, że budujemy komputer kwantowy, są firmy.
@rw
„Była mowa, że MSFT nie robi badań nad hardware.”
Nie, że nie robi badań nad hardware w ogóle, tylko badań nad dedykowanym hardware pod AI i wyłącznie AI. Nie że AI to tylko jeszcze jeden program działający na takiej samej architekturze co wszystko inne.
@wojtek_rr
„Tu akurat Google DeepMind robi przydatne rzeczy, poza LLMem.”
I pewnie nie tylko. Oczywiście istnieją specjalizowane modele, ale przeciętnemu człowiekowi wciska się inne, te wszystkie chaty, copiloty, gemini czy groki. Zamiast porządnych narzędzi zabawki, czasami z wątpliwej jakości plastiku. Nie o takim świecie marzę (ale taki dostaniemy bo zysk akcjonariuszy i inwestorów przede wszystkim).
@Piotr Kapis
„Zamiast porządnych narzędzi zabawki, czasami z wątpliwej jakości plastiku. ”
A żeby tylko zbędne zabawki. I jeszcze chcą im dać moc sprawczą (agentowość). Ratuj się kto może:
link to nature.com
@LLL
TAK! Dzięki! Próbowałem w tym trybie bezskutecznie, ale było to jakiś czas temu, może zmądrzał, a może miałem pecha.
@Piotr Kapis
„Bardzo by mnie cieszyło gdybyśmy poszli w bardziej wyspecjalizowane AI jako pomocniczne narzędzia do konkretnych zastosowań. Ale to nie jest to, co big techy chcą nam wcisnąć.”
No przecież to właśnie zostanie po pęknięciu bańki AI.
@rw
Tak jeszcze a propos komputerów kwantowych, to ja może słabo rozumiem koncepcje stojące za nimi (to nawet bardzo prawdopodobne, myślenie w kategoriach kwantowych jest dla mnie trudne), ale na ile się orientuję, ich istotną różnicą jest to, że zamiast na bitach przyjmujących pojedyncze wartości naraz opierają się na qubitach mogących przyjmować superpozycję stanów czyli efektywnie być we wszystkich naraz. Co się przydaje w łamaniu szyfrów, bo pozwala przeprowadzić brute-force szybko, po prostu sprawdzając wszystkie możliwe kombinacje i ustalając która z nich jest rozwiązaniem. Ale nie widzę w jaki sposób miałoby to pomóc w drugą stronę, tzn. w nadawaniu wiadomości, kiedy chcemy mieć ustalone stany. Innymi słowy, na ile się orientuję, pewne zadania komputery kwantowe przyspieszą znacząco a w innych nie będą miały żadnej przewagi nad klasycznymi – i tak będzie trzeba przesyłać dane już skolapsowane do konkretnego stanu, żeby wysłać „Ala ma kota” a nie „Ala ma kota”/”kot ma Alę”/”lama klamota”/”kamol lala tom”/masaj.
Dlatego mam pewne wątpliwości czy komputery kwantowe, nawet jeśli powstaną w zadowalającym nas kształcie (bo póki co te kilka pojedynczych qubitów jakie udało się podobno osiągnąć to malutko), wpłyną znacząco na działanie AI. Szczególnie jeśli AI ma być po prostu kolejną iteracją chatów, korzystającą z większej liczby możliwych obliczeń na jednostkę czasu dokonywanych równolegle. Być może gdy już będziemy mieć sprzęt to jakieś bystrzaki stworzą nowe modele AI potrafiące to wykorzystać.
W międzyczasie stoimy przed innymi wyzwaniami. Bo to, że ludzie mogą rzucić „Hej czat, podaj mi restauracje w okolicy oferujące steki i mające oceny przynajmniej 4,5/5” jest fajne, ale różne deepfake i dostęp do lepszych narzędzi pozwalających na oszustwa to realne zagrożenia, które już mamy. A nad którymi póki co nie potrafimy zapanować, bo wrzucenie w regulamin AI „musisz mieć zgodę osoby na wykorzystanie jej wizerunku” to tylko łatka i dupochron ze strony korporacji, nie prawdziwe zaadresowanie problemu.
Pesymistycznie obawiam się, że za parę lat (albo i szybciej) będziemy żałować dnia w którym obecne AI powstały i zostały udostępnione szerokiej publiczności, ponieważ przestaniemy wierzyć jakimkolwiek informacjom cyfrowym.
> Dlatego mam pewne wątpliwości czy komputery kwantowe … wpłyną znacząco na działanie AI
Gradient descent to działanie analogowe, a LLM to w pewnym sensie metrologia, w wyniku promptu następuje pomiar modelu. Komputer kwantowy jest komputerem analogowym tak jak integrator sferyczny Kelvina, tylko że z atomami. Są dla siebie zmyślone jeśli nie stworzone.
@wojtek_rr
„Granty badawcze są na badania, które w większości przypadków były prowadzone. I w tym przypadku są to głównie badania podstawowe. Od ściemniania, że budujemy komputer kwantowy, są firmy.”
Aha.
link to gov.pl
„Instytut Chemii Bioorganicznej Polskiej Akademii Nauk (ICHB PAN) otrzymał od Ministerstwa Cyfryzacji dotację w wysokości ponad 10 mln zł. Środki te wesprą tworzenie nowoczesnych programów edukacyjnych i szkoleń, które przygotują specjalistów do pracy z komputerami kwantowymi. Dotacja zostanie przyznana do końca 2025 roku i ma na celu zwiększenie kompetencji cyfrowych w obszarze inżynierii kwantowej.”
link to gov.pl
„Projekt EuroQCS-Poland to wspólna inicjatywa polskich i europejskich instytucji. PCSS będzie liderem konsorcjum, które zajmie się integracją i rozwojem sprzętu oraz oprogramowania. Partnerami projektu są Centrum Fizyki Teoretycznej PAN, Creotech Instruments S.A. oraz Uniwersytet Łotewski. ”
Tak więc jeżeli ktoś tu „ściemnia”, to osoba która twierdzi, że tylko firmy komercyjne obiecują ludziom komputery kwantowe, sorry.
@PK
„Ale nie widzę w jaki sposób miałoby to pomóc w drugą stronę, tzn. w nadawaniu wiadomości, kiedy chcemy mieć ustalone stany.”
Tak, zgodza. Wiele algorytmów klasycznych ma tzw. branching („jeżeli X to zrób, Y, jeżeli nie Y to zrób Z”, gdzie Y i Z to w ogólności zupełnie dwie różne rzeczy). OIMW to komputer kwantowy miałby z tym problem.
@amatill
Dowcip o faraonie jest bez sensu. Nikt nie rezerwuje stolika, siedząc w knajpie.
@karmazynowa klamerka
„Nie, mam na myśli współczesne modele. Tokeny EOS to nie jest przecież „skończyłem, teraz twoja kolej”, tylko po prostu jasne oznaczenie miejsca, w którym jest koniec wypowiedzi asystenta. Przerwanie generacji nadal jest obsługiwane z zewnątrz. Jak zignorujesz token EOS, to model dalej będzie gadał sam ze sobą.”
Podczas SFT, token specjalny typu EOS/” endoftext” oznacza dokładnie „skończyłem, twoja kolej”. W danych treningowych model nigdy nie widzi nic po dalej po takim EOS, semantyka jest tu jednoznaczna: należy przekazać kontrolę użytkownikowi, nie ma tu żadnego 'sztucznego procesu’. Oczywiście można proces inferencji po zobaczeniu EOS kontynuować dalej, ale to bez sensu, działasz wtedy w 'reżimie’ out of distribution – albo dostaniesz ciągły spam tokenów EOS, albo zwykłe śmieci. To tak jakby w klasycznym programowaniu zignorować exit w jakiejś funkcji i radośnie dalej wykonywać kolejne linie kodu – pewnie, że można, ale rozwala to podstawową mechanikę.
@rw
„Tak więc jeżeli ktoś tu „ściemnia”, to osoba która twierdzi, że tylko firmy komercyjne obiecują ludziom komputery kwantowe, sorry”
To może inaczej. Faktycznie w motywacji wniosku się podaje, że coś można zastosować w komputerze kwantowym. Niestety taka rzeczywistość, trzeba trafić w hype, żeby dostać dofinansowanie. Ale za te pieniądze prowadzi się badania. Ale bywa też gorzej, jestem bardzo sceptycznie nastawiony do projektu, który cytujesz.
A ogólnie względem komputera kwantowego, to on jest tak naprawdę złożonym układem kwantowym, składającym się z odpowiednio splątanych qubitów, które mają symulować coś. Przygotowujemy go w pewnym stanie. Następnie układ ewoluuje i wykonujemy na nim pomiar, który jest wynikiem obliczenia. To się nadaje tylko do specyficznych zastosowań, które są ciągle poszukiwane i słabo to idzie. Ja nie widzę, jak by to można w AI wykorzystać.
@LLL
„Podczas SFT, token specjalny typu EOS/” endoftext” oznacza dokładnie „skończyłem, twoja kolej””
Chodziło mi o to, że on oznacza, że skończyła się odpowiedź, ale nie w pierwszej osobie. Nie może oznaczać „skończyłem, twoja kolej”, bo LLM nie ma koncepcji „ja” i nie potrafi „czekać” na nic. Może tylko oznaczyć miejsce, w którym najprawdopodobniej skończył się ciąg tokenów, który składa się na wypowiedź asystenta.
„W danych treningowych model nigdy nie widzi nic po dalej po takim EOS”
W SFT tak, ale nie w pretrainingu. Tam EOS po prostu się pojawia jako koniec zbioru tokenów, ale nie ma żadnego znaczenia semantycznego, a fundamentalnym rdzeniem LLMa jest pretraining. Fine-tuning go modyfikuje i dostosowuje do naszych oczekiwań, m.in. nadając tokenowi EOS znaczenie semantyczne, ale to nie znaczy, że model nagle „rozumie” i „decyduje”, że ma sam z siebie przestać generować tokeny, bo to jest niemożliwe.
„Oczywiście można proces inferencji po zobaczeniu EOS kontynuować dalej, ale to bez sensu, działasz wtedy w 'reżimie’ out of distribution – albo dostaniesz ciągły spam tokenów EOS, albo zwykłe śmieci. To tak jakby w klasycznym programowaniu zignorować exit w jakiejś funkcji i radośnie dalej wykonywać kolejne linie kodu – pewnie, że można, ale rozwala to podstawową mechanikę.”
No właśnie ja bym tego nie nazwała podstawową mechaniką. Dla mnie podstawową mechaniką LLMa jest generowanie tokenów niezależnie od tego, czy one spełniają nasze oczekiwania. A to, że my sobie po pretrainingu dokręcamy wagi tak, żeby model lepiej nadawał się do generowania konwersacji, to jest dla mnie bardziej bonusowy ficzer (choć oczywiście dla użytkownika końcowego ekstremalnie ważny). Z mojej perspektywy to, że współczesny model się szybciej rozsypie po zignorowaniu EOSa, jest bardziej efektem ubocznym SFT niż oznaką tego, że współczesne modele są jakoś diametralnie różne od wcześniejszych.
> To tak jakby w klasycznym programowaniu zignorować exit w jakiejś funkcji i radośnie dalej wykonywać kolejne linie kodu – pewnie, że można, ale rozwala to podstawową mechanikę.
OMG człeku. Ale cię okłamali na studiach. Dokładnie to robią wszystkie procesory.
#komputery kwantowe
Można o nich myśleć jako o czymś w rodzaju koprocesora. To są układy dzięki którym można wykonać konkretne ściśle zdefiniowane algorytmy rozwiązujące konkretne problemy. Nie ma tych algorytmów/problemów wiele (like kilkanaście) i nie ma możliwości by te maszyny stały się komputerem ogólnego zastosowania. Nie w tej iteracji przynajmniej, może za 50 lat ktoś coś nowego wymyśli (a może nie). Póki co (pomijając kwestie kryptograficzne) to takie modne hobby`do przepalania dolarów, choć gdzie tam tym dolarom do tych przepalanych na ej-aj
„OMG człeku. Ale cię okłamali na studiach. Dokładnie to robią wszystkie procesory.”
A gdziekolwiek w Polsce na studiach w ogóle uczą takich rzeczy? Może na elektronice bo na informatykach to na pewno nie.
@embercadero
„A gdziekolwiek w Polsce na studiach w ogóle uczą takich rzeczy? Może na elektronice bo na informatykach to na pewno nie.”
Jak ja byłem na studiach to był obowiązkowy asembler i tam uczyli takich rzeczy. Teraz pewnie już nie uczą (a powinni).
Przepraszam, bo przeczytałem tylko część komentarzy i nie wiem, jak bardzo mój może się okazać wtórny czy nieaktualny, ale postanowiłem się wypowiedzieć w stosunku do tych, do których stoję w kontrze, również niejako co do samej notki.
Mam taki nietypowy zawód, nie wiem, czy Gospodarz kojarzy – jestem chemikiem. Ale takim przemysłowym – pompy, zawory, wymiana ciepła, destylacja, krystalizacja itp. Ale zawodowo zajmowałem się też bardzo sporo zarządzaniem, często na poziomie wymagajacym wielu czynności administracyjnych itp.
Dla mnie chat GPT to był zawodowy gamechanger, bez żadnej przesady. Głównie z powodu tego, że umie programować i zna praktycznie każdy soft na poziomie mocno zaawansowanym. Przed GPT myśl typu „szkoda, że nie umiem programować” lub „…że nie znam dobrze funcji softu X” dopadała mnie dziesiątki, jeśli nie setki razy dziennie, a w zasadzie dopadała potencjalnie, bo w końcu przestałem w ten sposób myśleć, jedynie ze świadomością, że ktośtam gdzieśtam umiałby coś zrobić, czego ja nie umiem.
No właśnie – sama notka, a także wiele wymienianych rozczarowań czatem GPT przywołuje przykłady, gdzie coś zrobił źle albo niesatysfakcjonująco w dziedzinie, w której się samemu to regularnie robi, jak w specjalizacji swojego zawodu. Ja używam GPT praktycznie wyłącznie tam, gdzie właśnie ja się nie znam. Jak programowanie – wiem raczej dość dobrze, na czym programowanie tak ogólnie polega, umiałbym opisać wiele konkretnych rozwiązań, wiem jakie możliwości ma soft typu DaVinci Resolve, Reaper, Aspen+, pakiet MS 365, wiem co potrafi MS Excel i co potrafią makra w Excelu. Ale nie znam większości funcji, komend, kodów, nie umiem tego robić, nie chciało mi się tego wszystkiego uczyć, a teraz pewnie jestem na to za stary.
GPT pojawił się komercyjnie, jeszcze bodajże jako 3.5, kiedy akurat pracowałem bardzo mało chemicznie jako szef utrzymania ruchu w niewielkiej fabryce. Jak tylko zobaczyłem jak to działa natychmiast wykupiłem płatną wersję (tutaj uwaga: wiele wymienionych przez Was przykładów na to, co i jak GPT zrobił źle, koliduje z moimi doświadczeniami bardzo podobnych przykładów, za to bardzo często pokrywa się z doświadczeniami ludzi, którzy używają darmowej wersji – to jest naprawdę kolosalna różnica; niejaki prof. Andrzej Dragan podawał przykład super-komercyjnego GPT za $200/mc, co rozwiązał jego zadanie z relatywistyki, jakie daje swoim studentom od 25 lat i dotąd żaden z nich tego nie zrobił), w krótkim czasie zrobiłem dla fabryki od zera 'oprogramowanie’ do zarządzania i archiwizacji interwencji, do zarządzania i archiwzowania prewencją, do katalogowania części zamiennych – wcześniej fabryka nie miała nic, korpo odmawiało zakupu komercyjnych softów bąkając o jakimś standardzie co wprowadzą już za 5 lat, zresztą potem też ktoś się ich musi nauczyć i zazwyczaj jest z tym kiepsko, mój poprzednik odziedziczył po jeszcze poprzednim jakąś bazę zadań w MS Access, z której jedyne co umiał to drukować kartki i wrzucać w segregator.
Nie chcę się rozpisywać, dość powiedzieć, że krótkim czasie zyskałem w firmie reputację techno-geeka i programisty, nie mając pojęcia o programowaniu. Podobnie w następnej firmie, gdzie na bazie makr do Excela zrobiłem cały zaawansowany soft do przetwarzania danych procesowych. wcześniej nikt tam nawet nie widział jak się za to zabrać, choć bardzo chcieli. Do celów prywatnych zrobiłem sobie stronę do publikacji zdjęc z podróży (wcześniej używałem jAlbum, ale moja strona jest o niebo lepsza, mimo że to prosty html+JavaScript – o których oczywiście nie mam pojęcia) wreszcie zawsze wiem jak osiągnąć dany efekt np. w Reaperze, gdzie nauczyłem nawet paru opcji kolegę, co się zajmuje pół-zawodowo realizacją muzyki i jest naprawdę dobry. Poza tym po prostu setki pomysłów typu: „mam burdel w plikach video na dysku, fajnie byłoby coś z tym zrobić” – i GPT pisze mi skrypt w Pythonie, który kataloguje, zmienia nazwy wg metadanych, wrzuca w posegregowane foldery, usuwa duplikaty itp. Mam takich skryptów już całe mnóstwo.
W obecnej pracy (projektuję fabryki, z grubsza) też bez przerwy używam GPT już w mojej dziedzinie – ale jako że nie jestem naukowcem, to on po prostu zna te wszystkie wzory lepiej ode mnie, i tak, popełnia błędy, raz na przykład liczył mi bilans cieplny i wyszły dzikie wartości, sprawdziłem i się okazało, że przy przeliczaniu jakichś dżuli na kWh nie podzielił przez 3600. Dlatego trzeba go sprawdzać, w czym pomaga orientowanie się w dziedzinie, w którą się go angażuje.
GPT pomógł mi w niezliczonych innych kwestiach, na których się znam akurat na tyle, że wiem jak zadać właściwe pytanie, ale ani trochę więcej.
Uprzedzając potencjalne uwagi – na pewno każde z „moich” „osiągnięć” przy pomocy chata GPT ktoś zrobiłby lepiej i szybciej. Pewnie niejeden z tu obecnych. Ale nie ja. Więc zanim posypią się słowa politowania i pogardy – od kiedy używam GPT za jedyne $20/mc napisałem dziesiątki mniej lub bardziej prostych programów, do których nie wynająłem żadnego z Was, i nawet nie chodzi o kasę – nie musiałem się prosić, czekać, w dodatku każdy z nich jest skrojony idealnie pod moje potrzeby, a nawet jakbym chciał komuś za to zapłacić, to pewnie by się okazało, że nikomu się nie chce brać za taką duperelę, gdzie programowania jest mało, za to bardzo dużo trucia od klienta co ma jak być zrobione. GPT jest cierpliwy, mogę mu truć dupę godzinami, potulnie zawsze zrobi to co chcę.
Mimo to, jakbym czysto komercyjnie podliczył wartość tego całego softu, jaki wyprodukowałem, to wartość miałaby co najmniej pięć cyfr. W euro.
Tak jak mówię, dla mnie GPT to gamechanger. Szczerze powiedziawszy, to dość powszechne jego lekceważenie, a często nawet wrogość, mocno mnie dziwi, ale jeszcze bardziej cieszy. Jak się pojawił, to po pierwszym amoku, że mam nagle jakieś superpowers, następna pojawiła się refleksja, że nie ma się co podniecać, przecież to jest tanie i powszechnie dostępne, więc zaraz każdy będzie miał te same powers. Zdumiewająco mało ludzi jednak ma. Dla mnie OK.
Widzę, że wiele jest uwag, że GPT skopał to czy tamto, trochę podobnych do tego, że ktoś kupił Victorinoxa i chciał nim zjeść zupę, ale nie wyszło. No cóż, Victorinox ma wiele funkcji, ale akurat do zupy lepsza jest prosta łyżka, może więc lepiej poszukać innych zastosowań. Np. nie widzę sensu traktować GPT jak Google – jeśli czegos nie ma w internecie, to ani Google, anie GPT tego nie znajdzie, tylko GPT dodatkowo będzie wypisywał bzdury – bo tak LLM reaguje na zapytanie o coś, czego nie wie, to taki uboczny ficzer, nie antopomorfizujmy go i nie zalewajmy wrogością i pogardą. Sięgnijmy po łyżkę.
Myślę, że przyczyną małej popularności czegoś tak zdumiwająco użytecznego jak chat GPT jest po 1. używanie bezpłatnej wersji i projektowanie jej ograniczeń na wersję płatną, a po 2. właśnie antropomorfizacja, traktowanie go jako mądrego kolegi i zdziwko, że zachował się jak głupek albo świr. Mnie trochę zeszło, żeby nauczyć się gadać z GPT tak, żeby uzyskiwać odpowiednie rezultaty, a także aby weryfikować jego pracę, ale nie był to jakiś rocket-science, kluczowa jest precyzja, jednoznaczność i wyczerpującość zapytań. Aha, i nie wiem, czy to ma znaczenie, ale uznałem, że skoro angielskiego internetu jest jakieś 1000x więcej niż polskiego, to będę z nim gadał wyłącznie po angielsku, bo jest w nim zapewne 1000x mądrzejszy.
Natomiast tam gdzie GPT jest znacznie lepszy od Google, to jeśli szukam czegoś, co wiem, że jest w internecie, ale nie wiem jak to ująć w proste hasło, muszę opisowo. Przykładem jest wiele opcji softu, które wiem, że gdzieś tam są, ale nie wiem jak je odpalić. Chociaż w riserczu około-naukowym też jest dobry, np. ostatnio pytałem go o zależność wielkości kropel w sprayu po dyszy rozpylającej w zależności od ciśnienia cieczy i gazu, znalazł mi jakiś totalnie odjechany wzór empiryczny i chociaż nieco źle go zinterpretował, to sama publikacja bardzo mi pomogła, a sam w żaden sposób bym jej nie znalazł.
@midnight_rambler
„Więc zanim posypią się słowa politowania i pogardy – od kiedy używam
GPT za jedyne $20/mc napisałem dziesiątki mniej lub bardziej prostych
programów, do których nie wynająłem żadnego z Was, i nawet nie chodzi
o kasę […]
Mimo to, jakbym czysto komercyjnie podliczył wartość tego całego
softu, jaki wyprodukowałem, to wartość miałaby co najmniej pięć
cyfr. W euro.”
No jak nie chodzi o kase, jak chodzi. Obecnie usluge masz mocno dotowana, wiec ci sie spina.
Ponadto jest kilka innych drobiazgow do wyjasnienia:
1. Praw autorskich, tych zagrabionych w czasie trenowania i na wejsciu
inferencji; jestes pewnien, ze zadna czesc kodu, ktory ci transformer
wygenerowal, nie zostala opublikowana wczesniej na licencji typu
non-commercial?
2. Praw autorskich do wygenerowanego kodu
3. Dlubanie greenfield vs brownfield, co zasadniczo sprowadzania sie do
ograniczonego okienka konteksowego jak i koncepcji embeddingu w ogole.
4. Efektywnosc energetyczna calego show; as in: no fajnie jest miec
pizze dostarczana helikopterami, ale czy aby na pewno?
@nml
Ej, ale to wszystko to jakby nie są moje problemy, przynajmniej póki co, co nie? Pytanie było, z grubsza, czy AI jest fajne – no więc dla mnie jest bardzo fajne (btw. AI do grafiki, muzyki czy dźwięku też używam intensywnie, chociaż już głównie w celach rekreacyjnych). Akademicko jestem nawet świadomy tego wszystkiego, o czym piszesz i mogę o tym porozmawać, tylko to jest jakby inny temat.
@nmi
„Obecnie usluge masz mocno dotowana, wiec ci sie spina.”
Przypomina mi to dziesięciolecia rozważania o tym, że już zaraz za chwilę zbankrutuje Uber. Nie zbankrutował bo po prostu podniósł ceny. Nie jest może jakieś dobro o nieelastycznym popycie, zwłaszcza jak na rynku jest wiele konkurencyjnych usług, ale jak teraz ale jak teraz pobierają 20 USD to spokojnie mogą 80 i zgodnie z publikowanymi danymi spinać się zacznie.
@Juliusz Kopczewski
Wiem, że niektórzy nie lubią spekulacji na granicy S-F, ale ja lubię analogię z gnojem zalewającym Nowy Jork pod koniec XIX wieku. Też nie wiadomo było, jak to się ma spiąć przy obecnej technologii, no ale pojawiła się nowa.
Podobnie jest też trochę z lotami w kosmos na zasadzie uzyskiwania energii potrzebnej do lotu w kosmos na zasadzie pakowania paliwa żeby wywieźć w kosmos głównie paliwo, w najbardziej prymitywny sposób jaki się dało wymyślić. Skalowanie to też prymitywny sposób na rozwój AI. Wydaje mi się, że wymyślenie i wdrożenie nowej technologii to jednak bardziej kwestia czasu niż S-F.
@unikod
„Nakładki są tak stare jak LLMy z których pierwszy to BERT z
2019, a RAG czy CoT to odpowiednio 2020 i 2021.”
Gwoli scislosci: poczatek to papier z 2017, gdzie zaproponowano
self-attention w formule przetwarzania rownoleglego.
BTW. To moze – tak dla odmiany – niech kazdy zainteresowany sam
wyklika sobie emergentnosc i autonomicznosc LLMa:
link to poloclub.github.io
@Juliusz Kopczewski
„Przypomina mi to dziesięciolecia rozważania o
tym, że już zaraz za chwilę zbankrutuje Uber. Nie zbankrutował bo po
prostu podniósł ceny.”
Nie mam ochoty dzielic na czworo cokolwiek dzialy PR firm pre-IPO
wyprodukuja. Tak czy siak Altman raczej nie bedzie on the receiving end.
> Gwoli scislosci: poczatek to papier z 2017
No tak, ale to jeszcze nie produkcyjny model. Jak tylko zobaczono jak działają OD RAZU konceptualizowano te nakładki, ale rozwijano architekturę i dosypując danych zmniejszając halucynacje. Nastąpił koniec tej drogi (teraz to się dosypuje sztucznych syntetycznie wytworzonych danych). Od razu było oczywiste jakimi trikami można zmniejszyć percepcję halunów (podnosząc ich incydencję) i DOPIERO TERAZ są doczepiane. To jest wyraz porażki a nie wejścia na nowy poziom innowacyjności za rok.
Podobnie z Excel MCP. Czemu Anthropic to robi? Bo Microsoft jako de facto właściciel OpenAI nie tknie i oddaje pole. Tam strzelają korki od szampana że Anthropic wygenerowało sobie w czatklocie Claude „protokół” MCP i wszystkich można tam skierować nie biorąc odpowiedzialności za oferowanie takiej integracji. Protokół wygenerowany przez bota przekonanego o swojej nieomylności, bo błędy się obsługuje zadeklarowaniem stanu isError.
> wyklika sobie emergentnosc i autonomicznosc LLMa
Oczywiście, przykładem jak się emergetnie uczą arytmetyki w praktyce hardkodując każdy tabliczkę mnożenia. Albo autonomiczność to taka agentowa jak agenci curl.exe i grep.exe Komendą | jak inteligencja PowerShell zestawia polecenie „curl | grep” et voila agenci pobrali i przeszukali dokument z sieci. Autonomicznie! Tak samo autonomicznie programuje się wtyczki MCP. Tylko że agent.exe zwróci błąd, a w MCP trzeba sobie isError samemu napisać.
Ale jest też poziom poziomu 1 i 2. Zapytałem Gemini którego nie da się wyłączyć w moim telefonie „Who proposed two level theory of intelligence and why?”
„Arthur Jensen. His motivations included explaining racial IQ gaps”.
„Jensen used the theory to argue that large scale education programs were failing”.
Adressing educational policy failure? AI!
Nikt na takie pierdolenie nie wpada emergentnie i autonomicznie. To jest kolportowane.
@midnight rambler
Cieszyłbym się twoim szczęściem gdyby nie to że moja praca bardzo często polega na sprzątaniu po takich amatorskich wdrożeniach oprogramowania, którego twórca nie rozumiał co robi. Takie rzeczy kończą się zawsze tak samo: coś p*lnie, nikt na miejscu nic nie rozumie/nic nie wie/panikuje. A usługi sprzątania po czymś takim na pewno już w pięciu cyfrach się nie zamkną (nikt w branży nie bierze projektów poniżej 100k euro a i to niechętnie, realne minimum to 500k)
@embercadero
Kolega mnie chyba pomylił z jakimś informatykiem. Co chcesz konkretnie po mnie sprzątać, makra VBA w moim Excelu do sortowania danych i rysowania wykresów? Flowy MS PowerAutomate powiązane z planami MS Planera, Outlooks, Excela i MS Forms? Chyba nie bardzo się orientujesz na jakim poziomie jest moje 'oprogramowanie’, mimo że dość wprost to napisałem.
Zaletą programu na poziomie komplikacji kilkudziesięciu, a czasem wręcz kilkunastu linijek w VBA jest to, że jak już jest napisany, to ja całkiem nieźle wiem jak działa. Mało tego, podczas pisania ciągle coś źle działa, GPT rzadko daje dobry i w pełni funkcjonalny kod za pierwszym razem. Opisuję mu błędy i nie do końca oczekiwane efekty, zmienia coś i tak do skutku. Jak wspomniałem, pewnie to wolniej i mniej efektywnie niż gdyby to robił zdolny programista, ale szybciej i efektywniej niż gdyby to robił ten sam programista, którego najpierw muszę znaleźć, namówić do pracy i żeby wziął mniej niż 100k. A raczej mniej niż 1k.
W zasadzie to potwierdzasz to, co napisałem, i co opisałem jako największą wartość chata GPT dla mnie, bo nie tylko chodzi o to, że sam coś umiem zrobić, ale także o to, że to coś jest zbyt mało warte żeby to zlecać na zewnątrz. Jeśli miałbym to zlecić komuś takiemu jak Ty, to więcej czasu mi zajęłoby tłumaczenie jak to ma działać, niż Tobie programowanie, a koniec końców i tak nie byłbym zadowolony.
@embercadero
„Cieszyłbym się twoim szczęściem gdyby nie to że moja praca bardzo często polega na sprzątaniu po takich amatorskich wdrożeniach oprogramowania, którego twórca nie rozumiał co robi.”
Ja z kolei trochę rozumiem midnight_ramblera, bo ludzka inteligencja potrafi być nawet gorsza.
Jakiś czas temu pracowałem jako administrator serwerów. Goście z biznesu zrobili swój deployment (już na produkcji), a potem poprosili o uruchomienie ich serwisu. Nie wstaje. Więc człowiek je prowadzący poprosił mnie żebym przejrzał logi systemowe a on ściągnie developera. Rozmowa z tymże wyglądała mniej więcej tak
– W logach widzę, że service nie wstał ponieważ jest 'error in config.xml, line 59′
– Hmmm, nic mi to nie mówi.
– Zajrzałem do waszego configu i tam w linii 58 macie otwarty nawias ale nie został zamknięty.
– Myślisz, że to może być to?
Ja nie mam pojęcia ani jak to przeszło testy ani kto tego człowieka zatrudniał, ale jak się ma takich „developerów” do dyspozycji to chatGPT wydaje się nagle całkiem niezłą alternatywą. Oczywiście można by było mieć bardziej kompetentnych devów, ale to są przecież większe koszty tu i teraz. A korporacje lubią mniejsze koszty tu i teraz na pewno i być może większe za jakiś czas, niż na pewno większe koszty teraz żeby uniknąć czegoś czego się nawet nie zobaczy.
Enshitification na pełnej. Jak nie jestem fanem AI i osobiście unikam, tak po ludziach też nierzadko trzeba sprzątać i równie mało wiedzą o tym kodzie, który sami napisali. Mógłbym długo o tym skąd to się bierze, ale żeby się nie rozpisywać, to powiem tylko tyle – załatwi nas chciwość.
@rambler
Zastanów się co będzie jak odejdziesz z tej firmy albo coś ci się stanie i twój następca będzie próbował to ogarnąć. Wiem, nie twój problem. Twój pracodawca powinien ci tego zabronić w swoim najlepiej pojętym interesie (no chyba że to twoja firma, wtedy nic nikomu do tego)
@embercadero
Nie bardzo wiem jak poważnie odpowiedzieć, a niepoważnie się obawiam, bo nie znam Twojego poczucia humoru, a nie chcę Cię obrazić.
Akurat odszedłem z tej pracy, a nawet z tej drugiej, tak swoją drogą. Ale jak czasem się kontaktuję z dawnymi szefami to ciągle mnie lubią, widocznie moje makra VBA się jeszcze nie wysypały, albo ktoś jednak ogarnął te linijki. W obecnej robię symulacje w open-sourcowym, potwornie linuksiarskim sofcie do symulacji procesów chemicznych, tam też się czasem koduje, w Pythonie. Szef mi jeszcze nie zabronił, mało tego, wygląda na zadowolonego.
Z Twojej wypowiedzi wynika, że przynajmniej swoją stronę ze zdjęciami z podróży mogę dalej prowadzić. To już naprawdę moja firma.
@embercadero
Następca ramblera znajdzie się sytuacji następcy kogokolwiek, kto zbudował raporting bazujący na Excelu, VBA i np. dbase. Jakoś sobie do tej pory ludzie radzili.
Co najwyżej następca użyje Chata GPT do rozwikłania tego spaghetti.
Rozwinę to co napisał amatill, bo to bardzo trafne – przepraszam, jeśli zabrzmiałem jakby chat GPT zrobił ze mnie high level developera softu.
Pracując lub robiąc rzeczy pozazawodowe zdarzyło mi się spotkać kogoś świetnie obcykanego w Excelu, piszącego makra w VBA, kogoś robiącego analizy statystyczne w R, kogoś robiącego czasy w Photoshopie, DaVinci, CoolEdicie, kogoś piszącego skrypty w Pythonie, wymiatającego w Matlabie czy Aspenie. Wszyscy ci ludzie albo robili to co ja zawodowo, albo jako hobby. Wszystkim im zazdrościłem tego jednego skilla, który mieli tak bardzo wyższy ode mnie. Wszyscy byli wśród innych jak jeden na sto, a może bardziej tysiąc.
Teraz jestem w stanie praktycznie być każdym z nich. Pozostając ze swoimi skromnymi skillami, dzięki którym już wcześniej radziłem sobie całkiem nieźle, czy to w pracy, czy w hobby.
Nigdy się nie spotkałem z tym, żeby ktoś zabraniał komuś robić np. wypasione arkusze w Excelu, bo jest w tym lepszy od innych i jak odejdzie, to inni nie ogarną. Brzmi to cokolwiek absurdalnie.
@rambler
Nigdy się nie spotkałem z tym, żeby ktoś zabraniał komuś robić np. wypasione arkusze w Excelu, bo jest w tym lepszy od innych i jak odejdzie, to inni nie ogarną. Brzmi to cokolwiek absurdalnie.
Ja myślę że niektórzy mają traumatyczne doświadczenia z rzeczami skleconymi chaotycznie, overengineered, albo bez zadnej sensownej dokumentacji, czy choćby prostego komentarza dla idiotów co robi jakiś blok kodu, czy funkcja w tym vba. Ja mam w pracy takiego asa, który jest super biegły w excelu/vba, ale uwielbia robić rzeczy bardziej zagmatwanymi niż potrzeba, więc każdy kto musi korzystać z jego rozwiązań klnie pod nosem i zgrzyta zębami kiedy jakieś makro wysypie się z błahego powodu i trzeba się babrać w tajemniczo brzmiących funkcjach o kryptycznie nazwanych zmiennych, żeby się na koniec dowiedzieć że gdzieś ucięło jakiegoś slasha w ścieżce, albo jakaś komórka się nie updatowała bo cośtam. A zwykle jeszcze dochodzi element presji czasu, więc to co miało oszczędzić makro zostaje zmarnowane na debugging, a jako bonus mamy podniesiony poziom kortyzolu.
Ja staram się zawsze wrzucać komentarze albo jasno nazywać np. kolejne operacje w głupim power query, bo wiem że ja sam za pół roku nie będę pamiętał po co mi był jakiś zbędny na pierwszy rzut oka dynks, którego wywalenie jednak spowoduje grubszy problem dalej w procesie mielenia cyferek. Nie wszystkim chce się jednak tego pilnować, bo przecież to nie rocket science i wystarczy się chwilę zastanowić żeby załapać co jest do czego, tylko nie zawsze jednak mamy tę chwilę.
@Cpt. Havermeyer
No to tu akurat chat GPT jest pedantyczny jak autysta, komentarze są prawie co linijkę, czasem elementy opcjonalnego kodu za znacznikiem komentarza z opisem, co włączają, sam kod jest jak choinka, z wszystkimi wcięciami dla odpowiednich poziomów funkcji, czytelny jakby był pisany do podręcznika. Wydaje mi się, że akurat porównanie człowiek vs. LLM w tym przypadku będzie zawsze na korzyść LLMa. On może czasem robić błędy, pisać bzdury, ale zrobienie czegoś niechlujnie czy bez szerokiego omówienia mu się nie zdarza nigdy.
Jak pisałem wcześniej, jak już mam gotowy kod to prawie w całości go rozumiem, a nie znam się na kodowaniu, po prostu mam jakąśtam ogólnomatematyczną intuicję jak to praktykujący inżynier. Gdybym był młodszy albo mniej leniwy to pewnie szybko sam bym sie nauczył języków programowania, ale w sumie po co, jak.mam chata GPT? W sumie, jako kolejną zaleta GPT – nie wyobrażam sobie lepszego narzędzia do nauki programowania, szczególnie na podstawowym poziomie.
Tak nieco filozoficzniej, to czy promptowanie LLMa do pisania kodu np. VBA ma się jakoś bardzo jakościowo inaczej niż VBA do asemblera? To w pewnym sensie po prostu wyższy level języka programowania.
@Cpt. Havermeyer
Na ile ja zrozumiałem Midnight_Ramblera, to mowa jest tu o sytuacji w której pracodawca zapewnia tylko pewne minimum, np. daje takie narzędzia jak excel, opis procesów, etc. Ale jeśli pracownik chce to zautomatyzować bo widzi, że się da, to musi to sobie zrobić sam. Nie ma innego zespołu składającego się z programistów, którzy by to zaimplementowali, a sam pracownik nie został zatrudniony ze względu na umiejętności programistyczne – tych w ogóle nikt od niego nie oczekiwał – tylko do ogarniania procesów na dowolny sposób.
W takiej sytuacji ewentualnym następcą, o którym pisał embercadero, można się w ogóle nie przejmować ponieważ stworzenie tego oprogramowania nie było w zakresie obowiązków ani nikt tego nie oczekiwał. Jest to wyłącznie ułatwienie sobie życia przez pracownika. Następca może startować z dokładnie tym samym co ten pracownik – czystym excelem bez żadnych makr czy skryptów i opisem procesu.
Co innego jeśli kogoś zatrudniają po to, żeby stworzył narzędzia a ten stwierdza, że zamiast wydawać grube kilodolary to sam wszystko napisze przy pomocy czata, wykaże zyski i oszczędności i zgarnie premię. Ale tutaj brzmiało to jak sytuacja „Hej, czemu my to wszystko robimy ręcznie jak jacyś jaskiniowcy, skoro moglibyśmy zautomatyzować część rzeczy i mieć lżej?”.
Jeżeli ja sobie napiszę skrypt wyciągający dane z AD to też nikomu nic do tego czy są w nim komentarze albo w jakim języku to zrobię. Ja nawet nikomu nie muszę tego skryptu przekazywać tylko mogę go skasować gdy będę obchodził, bo to nie na mnie spoczywa obowiązek zapewnienia narzędzi potrzebnych do wykonywania zadań na stanowisku.
Mam wrażenie, że mylone jest tutaj tworzenie poważnych systemów, które są wdrażane do powszechnego użytku w firmie z EUC (end-user computing) czyli skryptowaniem i automatyzowaniem pracy dla ułatwienia życia pojedynczego użytkownika albo niewielkiego zespołu.
Warto też pamiętać, że ludzie potrafią bardzo indywidualnie podchodzić do pewnych rzeczy. Zdarzało mi się brać skrypty od kolegów po czym analizować je i modyfikować, żeby robiły to co chcę tak jak chcę. Albo w tym roku przez parę miesięcy miałem co tydzień zadanie przeanalizowania pewnego zestawu danych. Gdy szedłem na urlop napisałem kolegom z zespołu precyzyjną instrukcję jak to robię – krok po kroku. Gdy wróciłem okazało się, że przeczytali ją a potem postanowili robić jednak trochę inaczej i dane od nich miały inny format i strukturę pliku. Wyniki były takie same, ale mnie już nie leżały, bo wyglądały inaczej. Musiałem je trochę poprzesuwać i wrócić do swoich ustawień.
@PK
Moja siostra używa Copilot do robienia bardziej zaawansowanych arkuszy Excela automatyzujacych jej analizy danych w pracy. Mogłaby zgłosić w dziale IT zapotrzebowanie na profesjonalnie napisaną aplikację do tego, i czekać tygodnie albo miesiące aż znajdą czas się tym zająć. Copilot ma czas teraz.
@unikod
„Bo Microsoft jako de facto właściciel OpenAI nie tknie i oddaje pole.”
Microsoft nie jest i nie był właścicielem OpenAI. Ich relacja biznesowa jest najdokładniej opisana jako „It’s complicated”.
Nie rozumiem w ogóle o czym jest mowa w tym wątku ale chciałem podziękować koledze od performensu Dietera Meiera. Zainspirowało mnie to do poszukania w tym całym ChatGTP utworu, który miałem wdrukowany w mózgu od ćwierć wieku. Drobny problem polegał na tym, że nie znałem artysty ani tytułu, kojarzyłem jedynie pewne sceny z teledysku – robocika chodzącego po śpiącej dziewczynie i że artysta był francuski. No i udało się!!! Ja w szoku!!! miałem na myśli Roudoudou – Peace And Tranquility To Earth: link to youtube.com
@rw
„Mogłaby zgłosić w dziale IT zapotrzebowanie na profesjonalnie napisaną aplikację do tego, i czekać tygodnie albo miesiące aż znajdą czas się tym zająć.”
O ile w ogóle się tym zajmą i o ile zrobią to jak trzeba. Bo ci profesjonalnie piszący też potrafią całkiem konkretnie nawalać.
W mojej korpo była sobie aplikacja do wyciągania danych z AD. Przeglądarkowa, trzeba było wyklikać co tam człowiek chciał i wygenerować raport do pliku excela, który przy otwieraniu rozwalał formatowanie, więc trzeba było je potem poprawić i zapisać jako nowy plik, już poprawny.
Ale jakoś to działało. Dopóki nie wprowadzili nowej wersji. Teraz co prawda raport nadal jest niepoprawny a wszystko działa cztery razy wolniej, ale za to w raporcie znajdzie się tylko 1000 obiektów. Co przy próbie ściągnięcia informacji o użytkownikach w pojedynczej grupie liczącej powiedzmy 3k użytkowników jest bezużyteczne. No ale odpowiedzialny zespół dostarczył nowy produkt, goale się zgadzają. I to wszystko bez AI!
Ja w takiej sytuacji cieszę się, że potrafię coś tam programować więc mogłem wziąć skrypt powershellowy od kolegi, trochę go przerobić i teraz wystaczy podać w nim nazwę grupy żeby w parę minut dostać poprawny plik csv z pełną zawartością. Bonus: skrypt potrafi zrobić coś, co w nowej funkcjonalności oficjalnego narzędzia całkowicie zniknęło, czyli podać zawartość kolejnych grup (jeśli sprawdzam grupę i jej członkiem jest inna grupa i dopiero tam są użytkownicy).
Jest tu oczywiście pole do działania dla takich ludzi jak embercadero, tylko powinni oni poprawić nie drobne skrypty i usprawnienia używane przez indywidualnych użytkowników, a całe oficjalne narzędzie. Tyle że pracodawca zachłyśnięty Shit as a Service i zwracający właśnie łaskawe oko ku AI nie będzie chciał za to zapłacić, bo nie widzi potrzeby. Bo menadżerowie decydujący o wydaniu tych kiloeurosów z niego nie korzystają, ani nawet nie korzystają z tego ich bezpośredni podwładni.
Mógłbym długo o tym jak głupie decyzje powodują, że wprowadza się nowy soft bezmyślnie. Albo jak brak procedur i standardów – tudzież trzymania się ich jeśli istnieją – doprowadza do głupich implementacji. Albo nawet soft działa i to całkiem dobrze, ale zespół który go stworzył nigdy go nie przekazał nikomu innemu do nadzorowania. I gdy coś się zepsuje z powodu zmiany zrobionej w tym sofcie (który zrobił co trzeba, tylko coś nie zostało przewidziane) to trzeba w sobotę wdzwaniać tych dwóch jedynych ludzi mających dostęp, bo oni są developerami od automatyzacji pracującymi wyłącznie pon-pt 8-16 w USA. Ale nie przekazali swojego produktu do jakiegoś zespołu mającego nadzór 24/7.
Ile rzeczy może spieprzyć absolutnie naturalna ludzka inteligencja w połączeniu z lenistwem albo chciwością to ja nawet nie.
W porównaniu do tego człowiek piszący skrypty z użyciem AI do własnego użytku to drobiazg niewarty uwagi. Środowisku developerskiemu w IT bardzo dobrze zrobi taki kopniak, bo wielu jest zachłyśniętych swoją zajebistością i uważa, że procedury i standardy są dla frajerów. Jeśli czegoś bym chciał, to żeby AI miała podobny wpływ na menadżerów, bo oni też są za te zaniedbania odpowiedzialni.
@Piotr Kapis
Mófłbym podpisać się pod wszystkim, co napisałeś. Sam z Excelem i VBA nie pracuję od lat, skończyłem zanim wszystko poszło w chmurę, ale kiedyś pisałem całkiem spore aplikacje, oszczędzające setki roboczogodzin.
Unit testy znałem wtedy ze słyszenia, a git to była taka subkultura. Jestem przekonany, że w liczącym ponad 200 pracowników oodziale nie było nikogo lepszego w te klocki. Nawet zresztą gdybym wiedział co to repozytorium, to edytor VBA nijak nie wspierał korzystania z niego.
Jeśli moje skrypty gdzieś jeszcze działają, AI może do nich napisać dokumentację. Mi nie zawsze się chciało.
Oczywiście, pracodawca powinien był mi tego zabronić. Ale musiałby wiedzieć co robię.
@Piotr Kapis
„powinni oni poprawić nie drobne skrypty i usprawnienia używane przez indywidualnych użytkowników, a całe oficjalne narzędzie”
Embercadero chyba pił do przypadku, kiedy opisałem faktycznie stworzenie od zera całego narzędzia, bo korpo nie posiadało standardu, a fabryki nie miały swobody w zakupie komercyjnego softu. Odchodzący szef utrzymania ruchu przekazując mi stanowisko siedział przez dobry tydzień głównie nad przepisywaniem nowych zadań prewencyjnych na rok do przodu, żebym miał je gotowe na tych karteczkach. To był absurd. Kolejnym absurdem było to, że awarie zgłaszano tak, że operator latał po fabryce i jak złapał technika, to pokazywał mu, że o tam się zepsuło. Nikt tego nie rejestrował, ustalenie jakiegoś harmonogramu prac czy priorytetów graniczyło z cudem. Dodam, że fabryka była w Belgii, nie w Mozambiku.
Oprócz mojej wygody problemem były też audyty ISO i Seveso, bo audytorzy chcieli widzieć dowody na wykonane i planowane pracę prewencyjne. Folder z karteczkami im się nie podobał.
Zająłem się tym tuż przed tym, jak pojawił się GPT. Wziąłem od kolegów z innej fabryki, którzy właśnie sami sobie zrobili narzędzie w Excelu, formularz z makrem dla operatora, żeby zgłaszał awarię, z danymi przetwarzanymi do pliku rejestrującego i przetwarzającego. Musiałem to przerobić, żeby było na nasze potrzeby, pociłem się nad tym kodem VBA przeklinając, że się za młodu nie chciało tego nauczyć. Ale nie miałem innego pomysłu, niż przerobić gotowca stworzonego przez kogoś innego, do zupełnie innej fabryki, bo nie miałem IT-skilli żeby zrobić to samemu.
I pojawił się GPT.
Olałem ich narzędzie, w krótkim czasie zrobiłem całą platformę do zarządzania zadaniami na takim open-sourcowym Trello, do ktorego dane trafiały poprzez prościutki formularz w Excelu, do którego miał dostęp każdy na każdym terminalu w fabryce. Dane szły Outlookiem na email który formatował dane już w Trello na odpowiednio sformatowaną kartę zadania. Powstawał w ten sposób automatycznie katalog ładnie posegregowanych zadań, dostęp do tego mieli technicy i ja, zadania można było rozdzielać, nadawać priorytet, status, komentarze, czeklisty, dołączać info o zużytych częściach (potem połączyłem to z również od zera stworzonym katalogiem części zamiennych). Dodatkowo wziąłem komputer i ekran z demobilu i wywiesiłem nad warsztatem żeby wyświetlał stronę w htmlu, aktualizującą się przez API Trello, która na kolorowo pokazywała jakie zadania są zgłoszone, jakie są w poczekalni, jakie odrzucone, itp.
To do interwencji. Do prewencji zrobiłem listę wszystkich cyklicznych zadań w Excelu, która poprzez Power Automate pracowała z Outlookiem i Plannerem, żeby technicy dostawali powiadomienia o nadciągających deadlinach, w Plannerze klikali na zadanie, co generowało czeklistę stosownie do zadania, która oo wypełnieniu lądowała w archiwum jako PDF, a lista zadań się aktualizowała. Na jakiekolwiek zmiany wystarczyło dodać nowe zadanie na liście, reszta się automatycznie updateowała.
Audytorzy byli zachwyceni.
I tak, w tym przypadku jest to bardziej „soft” stworzony przeze mnie jako „dewelopera”. Ale jest prosty i czytelny, bo nie są to jakieś binarne pakiety kombajnowego oprogramowania, tylko głównie narzędzia pakietu MS 365 z elementami kodu VBA. Bardzo czytelnego kodu, bo nikt nie koduje bardziej czytelnie niż GPT.
@Piotr Kapis, @komputery kwantowe
„przeprowadzić brute-force szybko, po prostu sprawdzając wszystkie możliwe kombinacje i ustalając która z nich jest rozwiązaniem”
Tak a propo, świetnie ten 'misconception’ jest wprowadzony na początku filmiku 3blue1brown o algorytmie Grovera. Otóż, powiada, ulubiony jego quiz to pytanie o złożoność obliczeniową tego rodzaju sprawdzania na komputerze kwantowym, i odpowiedzi ankietowych wypadły następująco
O(sqrt(N)) – 18%
O(log(N)) – 20%
O(log(log(N))) – 8%
O(1) – 54%
Sęk w tym, że nie jest to ani O(1), ani O(log(N)). Dokładne wyjaśnienie zajmuje pół wykładu, podaję link
link to youtube.com
@midnight_rambler
Ok. Mogłem przegapić ten przypadek. Ale że nie zatrudniano cię ze względu na umiejętności programistyczne a pracodawca powinien to zadanie zlecić komuś kto miał odpowiedniego skilla i został w tym celu zatrudniony. Albo poszukać na zewnątrz.
Więc jeśli pracodawca postanawia zaoszczędzić i zrzuca takie zadanie na ludzi którzy nie posiadają odpowiednich kwalifikacji, to narzekanie „a co jak przyjdzie kolejny pracownik i nie będzie wiedział jak to działa?” jest dla mnie nieco śmieszne. Niech pracodawca się wysili i zatrudni kogoś kto zrobi to porządnie albo niech zapłaci profesjonalistom.
Ja nie lubię AI i uważam, że wprowadzi więcej złego niż dobrego (same deepfake’i są paskudne). Ale w sytuacji: Pracodawca który chce przyoszczędzić i nie widzi potrzeby robienia czegoś porządnie / pracownik który musi sobie jakoś radzić, jak najbardziej kupuję sięganie po AI. Bo alternatywą nierzadko nie jest dobrze zrobione i profesjonalne narzędzie tylko jego brak i ciągłe upierdliwe robienie wszystkiego ręcznie. Bardzo bym chciał, żeby tak nie było, ale pod tym względem jestem pesymistą – kapitalizm promuje chciwość.
@Piotr Kapis
No więc ja się w całości zgadzam z Twoim poprzednim komentarzem, i dokładnie – mój „soft” uważam za nic ponad to, że moim zadaniem jest organizowanie pracy działu i przechodzenie pozytywnie audytów, więc zrobiłem to najlepiej jak umiałem. Nawet jeżeli to, co stworzyłem, byłoby totalnie hermetyczne i nieużywalne przez następcę, to po prostu dostałby sytuację zero, jaką ja miałem, a w sumie nawet lepszą, bo ja odziedziczyłem wyłącznie archiwum prewencji na papierowych karteczkach, on by odziedziczył takie samo archiwum, tylko w PDF-ach, plus archiwum i całe mnóstwo statystyk przeszłych interwencji, czego wcześniej nie było w ogóle.
„Ja nie lubię AI i uważam, że wprowadzi więcej złego niż dobrego (same deepfake’i są paskudne).”
Ja niestety lubię, z egoistycznych powodów, które wymieniłem, po prostu dzięki AI dramatyczmie wzrosła jakość mojego zawodowego życia (teraz ja jestem tym jednym na 200, którym był amatill – bo z wciąż niezrozumiałych dla mnie powodów tych pozostałych 199 nie używa AI tak jak ja). Wprowadzenie więcej złego niż dobrego to mam wrażenie, że jest regułą od powstania internetu. Co do deepfake’ów, to początkowo też mnie to przerażało, ale z czasem doszedłem do wniosku, że mają zerową wartość dodaną dla robienia syfu – Trump czy Nawrocki zostali prezydentami bez używania żadnych deepfake’ów, na te wszystkie udokumentowane i pokazane plugastwa, które robili, ich fani po prostu odpowiadają „nie, to nieprawda, to GW/NYT napisał”. Po co robić deepfake z Tuskiem, który pożera niemowlę, skoro połowa Polaków jest i tak przekonana, że pożera niemowlęta? Wydaje mi się, że mamy wystarczająco wiele przykładów na to, że jakkolwiek potężna będzie sztuczna inteligencja, to nie przebije potęgą naturalnej głupoty.
@midnight_rambler
„Co do deepfake’ów, to początkowo też mnie to przerażało, ale z czasem doszedłem do wniosku, że mają zerową wartość dodaną dla robienia syfu – Trump czy Nawrocki zostali prezydentami bez używania żadnych deepfake’ów, na te wszystkie udokumentowane i pokazane plugastwa, które robili, ich fani po prostu odpowiadają „nie, to nieprawda, to GW/NYT napisał”.”
W polityce tak, do pewnego stopnia. Chociaż były już bodaj przypadki, że robiono deepfake w którym kandydat w wyborach mówił jakieś głupoty, odpalano go tuż przed ciszą wyborczą i ze względu na przepisy nie mógł już tego nawet wyjaśnić czy zdementować. To, że ludzie bez standardów mają swoich wyborców to jedno, ale że ci z jakimiś standardami (tak, wiem, to politycy, ciężko na takich liczyć) mogą zostać uwaleni to druga rzecz. Będziemy równać w dół jeszcze bardziej.
No ale to taki tam drobiazg, bo świat polityki często jest brudny. Gorzej, że wystarczy mieć raptem parę sekund nagrania głosowego, żeby przy pomocy AI stworzyć całkiem niezłą podróbkę głosu człowieka. A to już znacząco ułatwia oszustwa celowane w jego bliskich, współpracowników, etc. IMO oszuści dostaną nowe, świetne narzędzia. Co będzie prowadziło do tego, że jeszcze bardziej przestaniemy sobie ufać nawzajem, a rozsądnym zachowaniem będzie kilkukrotne weryfikowanie wszystkiego, nawet gdy ci się wydaje, że rozmawiasz z żoną, tatą, dzieckiem czy najlepszym kumplem z pracy. Niektórzy obawiają się jak bardzo wprowadzenie komputerów kwantowych rozwali kryptografię. Tyle, że ich nie ma, a ludzie jako najsłabsze ogniwo systemów bezpieczeństwa to norma. Scamy, phishingi i cała ta socjalna część oszustw staną się dużo łatwiejsze dzięki AI, bo ona mocno wzmacnia ofensywę, ale nie robi za wiele dla defensywy.
Obym się mylił.
Obecnie myślę, że jeśli coś ma bronić konkretnie mnie, to będzie to „security by obscurity” czyli po prostu będę za małym miśkiem, żeby ktokolwiek we mnie celował. Pomaga w tym fakt, że mało się udzielam na social mediach i nie lubię pisać szczegółowo o swoim życiu prywatnym. Ale pewnie żebym był jeszcze bardziej bezpieczny powinienem przestać pisać komentarze na publicznie dostępnym blogasku znajomego (i to pod nazwiskiem). Trochę szkoda, jeśli taka ma być alternatywa – bezpieczeństwo albo ukrywanie się i ograniczenie dyskusji z ciekawymi ludźmi.
@midnight_rambler
„Tak nieco filozoficzniej, to czy promptowanie LLMa do pisania kodu np. VBA ma się jakoś bardzo jakościowo inaczej niż VBA do asemblera? To w pewnym sensie po prostu wyższy level języka programowania.”
Różnica polega na przewidywalności i determinizmie. Poprawny kompilator (a dla produkcyjnych języków one są zazwyczaj poprawne, błąd w kompilatorze widziałem może raz czy dwa razy w życiu) generuje funkcjonalnie to o co jest proszony. Nie trzeba potem sprawdzać, czy kod wynikowy jest zgodny ze źródłowym, a następnie w dialogu przekonywać go do wprowadzenia poprawek.
LLM to tutaj bardziej odpowiednik praktykanta, który niby pisze plus-minus dobry kod, ale trzeba go pilnować i pokierować.
@Galahi Simtam
Dziękuję za tę informację, nie wiedziałem, że studenci dalej się nie uczą. Odniosłem wrażenie, że u młodych jest jednak lepiej. Szkoda Stanforda. Z podobnych anegdot: mniej niż 90% studentów Harvarda nie rozumie zjawiska pór roku.
@WO
„o właśnie, bo ja nie mówię tu przecież o jakiejś wiedzy tajemnej, że Sekretna Xięga W Lochach Hogwartu. Skoro cybergłupek ma dostęp do Reddita, to musiał widzieć jakąś dyskusję, w której powiedzmy ktoś pytał „a jakie są właściwie dowody że Kopernik miał kochankę”, a na to ktoś inny zgryźliwie odpowiedział „archiwum Dantyszka koledze nie działa?”, czy coś w ten deseń. Powinien wiedzieć że takie coś istnieje. Czemu się zachowuje jakby nie wiedział?”
Bo nie pamięta. to jest bardzo łatwo intuicyjnie zrozumieć – nawet jeśli ma w kodzie identyczny zapis takiej konwersacji, to nigdy na niego nie trafi. Analogicznie: na pewno wiesz kto to jest Krychowiak, ale żeby to sprawdzić to musielibyśmy zacząć opowiadać żarty o sporcie.
@bokononowicz
Ależ właśnie pamięta – zerknij na dyskusję powyżej. Poproszony o przygotowanie zapytania (do siebie samego) o związek Kopernika z kobietą, archiwum Dantyszka wymienia na pierwszym miejscu źródeł. Wykonując to zapytanie wyszukuje w sieci wystarczająco wiele materiałów, by udzieli rozsądnej odpowiedzi na pytanie “gdzie szukać”. Przy okazji identyfikuje podzbiór źródłowej korespondencji w tym temacie.
Okazuje się, że jakość odpowiedzi rozbija się w dużej mierze o samo pytanie. Poproszony o zapytanie dla samego siebie, tworzy bardzo szczegółowe wytyczne – dalece bardziej szczegółowe, niż typowe zapytanie napisane z palca. Pracując w ramach tych wytycznych zwraca już innej jakości odpowiedź, niż na zapytanie z palca.
@Parasol
„Ależ właśnie pamięta – zerknij na dyskusję powyżej. Poproszony o przygotowanie zapytania (do siebie samego) o związek Kopernika z kobietą, archiwum Dantyszka wymienia na pierwszym miejscu źródeł. Wykonując to zapytanie wyszukuje w sieci wystarczająco wiele materiałów, by udzieli rozsądnej odpowiedzi na pytanie “gdzie szukać”. Przy okazji identyfikuje podzbiór źródłowej korespondencji w tym temacie.
Okazuje się, że jakość odpowiedzi rozbija się w dużej mierze o samo pytanie. Poproszony o zapytanie dla samego siebie, tworzy bardzo szczegółowe wytyczne – dalece bardziej szczegółowe, niż typowe zapytanie napisane z palca. Pracując w ramach tych wytycznych zwraca już innej jakości odpowiedź, niż na zapytanie z palca.”
Ale to chodzi właśnie o to, o czym pisał bokononowicz – LLM nie pamięta *NICZEGO*. Nie ma czegoś takiego, jak pamięć LLMa (chyba, że mowa o kontekście tokenów, ale to tylko w obrębie jednej sesji jest). Po prostu chodzi o to, że jak dana informacja jest bardziej powszechna i częściej pojawia się w pierwotnym zbiorze danym, to LLM ma większą szansę na nią natrafić bez naprowadzania w odpowiednie okolice, a jak jest mniej powszechna, to szanse są mniejsze i może potrzebować innego prompta, żeby trafić tam gdzie trzeba, przy czym to też jest stochastyczne – może być tak, że żadna ilość naprowadzania nie naprowadzi go tam, gdzie chcemy.
A jeśli chodzi o podsumowywanie znalezionych źródeł, well, oprócz tego, co napisał unikod, to tutaj jeszcze dodatkowo się rozbijamy o ten nieszczęsny kontekst. Jeżeli bot wyguglał 100+ źródeł, każde po fafset stron, to za nic mu się to nie zmieści w bieżącym kontekście, musi to rozbić na osobne, czyli to tak, jakbyś odpalił x chatbotów naraz, jeden wyszukuje, drugi czyta i podsumowuje jedną część artykułów, drugi drugą część, trzeci wnioskuje… co wiąże się z tym, że ostateczna odpowiedź jest w zupełnie innym kontekście niż ten, w którym wcześniej znalazły się właściwe dane, a po drodze było jeszcze x okazji na dohalucynowanie jakichś bzdur przez kolejne konteksty.
@”ostateczna odpowiedź jest w zupełnie innym kontekście niż ten, w którym wcześniej znalazły się właściwe dane, a po drodze było jeszcze x okazji na dohalucynowanie jakichś bzdur przez kolejne konteksty”
Kiedy te LLM-y przejmą władzę nad światem, to jak znalazł będą peerelowskie dowcipy o milicjantach. Dlaczego chatboty chodzą parami? dlaczego chatbot nie może jeść dżemu ze słoika? dlaczego chatbot pałuje kasetę magnetofonową (edit: plik z nagraniem)? No i ten najkrótszy: siedzi AI i myśli.
@wojtek_rr
„To może inaczej. Faktycznie w motywacji wniosku się podaje, że coś można zastosować w komputerze kwantowym. Niestety taka rzeczywistość, trzeba trafić w hype, żeby dostać dofinansowanie. Ale za te pieniądze prowadzi się badania. Ale bywa też gorzej, jestem bardzo sceptycznie nastawiony do projektu, który cytujesz.”
Pytanie, kto rozkręcił ten hype? Kiedy studiowałem fizykę i robiłem doktorat w PL, to OIMW nikt w Silicon Valley nie interesował się tym tematem. Natomiast nasi profesorowie mieli wykłady o tym, jaka to rewolucyjna technologia która co najmniej rozwali kryptografię, a jak teoretycy wymyślą nowe algorytmy, to ho ho. Tak więc IMO to nie jest hype rozkręcony przez przemysł do którego naukowcy muszą się dostosować, żeby dostać pieniądze. To jest hype rozkręcony przez naukowców, do którego dołączył przemysł, motywowany przez FOMO. No bo jeżeli profesorowie z szanowanych uniwersytetów mówią, że coś w tym jest, to nawet jeżeli jest tylko 5% szansy na to, że mają rację, to jeżeli payoff z tych 5% jest odpowiednio duży, to czemu nie wydać paruset milionów USD rocznie na własny lab? Microsoft wydaje dziesiątki miliardów USD rocznie na karty graficzne, budżet ich labu od komputera kwantowego to małe fistaszki w porównaniu z tym.
„A ogólnie względem komputera kwantowego, to on jest tak naprawdę złożonym układem kwantowym, składającym się z odpowiednio splątanych qubitów, które mają symulować coś. Przygotowujemy go w pewnym stanie. Następnie układ ewoluuje i wykonujemy na nim pomiar, który jest wynikiem obliczenia. To się nadaje tylko do specyficznych zastosowań, które są ciągle poszukiwane i słabo to idzie. Ja nie widzę, jak by to można w AI wykorzystać.”
No to Ty nie widzisz. Ktoś inny może będzie umiał. Nie jesteś alfą i omegą. Dowodu na to, że się NIE DA, nie masz. A przemysł czasami idzie w spekulatywne kierunki, jeżeli mają one chociaż trochę podbudowy naukowej. A tę podbudowę informatyce kwantowej dostarczyli naukowcy, nie spindoktorzy z Silicon Valley.
Dlatego śmieszy mnie takie dumne „od hype to przemysł, a nie my”, po tym jak mieliśmy nie tylko hype na informatykę kwantową, ale również hype na grafen, rozkręcone przez środowiska akademickie, a nie przemysł.
Z pewnością komputery kwantowe już funkcjonują w popkulturze. Oto streszczenie kryminału „Q. Cząstka strachu”:
„Q – znany również jako major Boothroyd – zostaje niespodziewanie odsunięty od pracy w brytyjskim wywiadzie, gdzie zajmował się rozwojem technologii dla agentów MI6. Postanawia zatem powrócić do swojego sennego rodzinnego miasteczka by odpocząć po służbie.
Jego przyjaciel z dzieciństwa – znany *informatyk kwantowy* Peter Napier – ginie w dziwnych okolicznościach, pozostawiając po sobie tajemniczą notatkę. Q czuje się zobowiązany do zbadania sprawy i wkrótce odkrywa, że przełomowe odkrycia Napiera mogły przyciągnąć złowrogie siły…”
@karmazynowa_klamerka
„Jeżeli bot wyguglał 100+ źródeł, każde po fafset stron, to za nic mu się to nie zmieści w bieżącym kontekście, musi to rozbić na osobne, czyli to tak, jakbyś odpalił x chatbotów naraz, jeden wyszukuje, drugi czyta i podsumowuje jedną część artykułów, drugi drugą część, trzeci wnioskuje… co wiąże się z tym, że ostateczna odpowiedź jest w zupełnie innym kontekście niż ten, w którym wcześniej znalazły się właściwe dane, a po drodze było jeszcze x okazji na dohalucynowanie jakichś bzdur przez kolejne konteksty.”
Po pierwsze, bieżący kontekst jest coraz większy. GPT-5 ma 400,000 tokenów. Owszem, nigdy nie zaleca się wysycania tego kontekstu, ale problem „nie zmieści się w okienku” jest coraz mniej istotny.
Po drugie, dla wielu (większości) zapytań dobrze zrobiona kwerenda zwróci dużo mniej niż 100+ źródeł.
Po trzecie, jeżeli rzeczywiście potrzebujesz przetrawić 100+ źródeł, to i człowiek będzie miał z tym problem, chyba że jest wyszkolony w pracy ze źródłami. Typowy Kowalski polegnie na tym równie szybko, jeśli nie szybciej, co chatbot. Innymi słowami, oceniajmy chatboty krytycznie, owszem, ale używajmy realistycznych baselines.
Po czwarte, IMO skonstruowanie agenta opartego na SOTA LLMs który by dał sobie sensownie radę ze 100+ źródłami jest możliwe. Ale on będzie je przerabiał dłużej, i drożej, niż waniliowy ChatGPT.
@parasol
„Poproszony o przygotowanie zapytania (do siebie samego) o związek Kopernika z kobietą, archiwum Dantyszka wymienia na pierwszym miejscu źródeł. ”
To prawda (wreszcie!), ale ponownie zwracam uwagę na te ciekawe błędy, które już wypunktowałem. AI uważa, że sprawa romansu się kończy razem ze śmiercią, co w pewnym sensie jest logiczne, ale „ładnie byśmy wyglądali gdyby śmiercią się można było od wszystkiego wykręcić”. Risercz robiony dokładnie według AI przegapiłby więc najważniejszy dokument, z którego W OGÓLE ZNAMY JEJ NAZWISKO (oraz możemy domniemywać coś o jej wieku).
Więc faktycznie doceniam, że wskazał te archiwa – ale sam nie wiem czy całościowy pakiet jest opłacalny, wydaje mi się po prostu że jest też ryzyko, że człowiek zacznie „myśleć jak AI”, tzn. nie wpadać na to co dla cybergłupka zbyt nieoczywiste.
@wo
„To prawda (wreszcie!), ale ponownie zwracam uwagę na te ciekawe błędy, które już wypunktowałem.”
Rok czy dwa lata temu dominująca narracja na tym blogu n/t LLMs była „to generatory bullshitu, niezdatne do niczego”. A teraz dyskutujesz, na ile dobrze chatbot przeszukuje archiwa historyczne n/t Kopernika. Jednak coś się poprawiło w tych generatorach bulszitu, nie? W ciągu dwóch lat. To co nas czeka np. za pięć lat?
@karmazynowa klamerka
Szczerze powiedziawszy nie bardzo rozumiem ten argument. Ten LLM ma kilkadziesiąt miliardów wag (dokładna liczba nie jest znana). Wychodzi z tego kilkadziesiąt (może ponad setka) gigabajtów, w których można kompresować informacje z tekstu. Zapytany o query dot. Kopernika zaczyna od archiwum Dantyszka – to zapytanie konstruuje bez wyszukiwania czegokolwiek w internecie. Jak dla mnie są to znamiona „pamięci”. No chyba, że argumentujesz, że nie pamięta niczego w takim sensie, w jakim dysk SSD nie pamięta niczego, bo jest tylko kawałkiem krzemu, plastiku i metalu.
Dalej wchodzimy w szczegóły techniczne, co jest w jakim kontekście, co jest w innym. No o ile ogólną architekturę znamy, to już wątpię by ktokolwiek z dyskutujących miał info o niskopoziomowych detalach (faktyczną długość kontekstu, sposób przetwarzania większych źródeł, ograniczenia na zapytania do wyszukiwarki, etc). Wchodzimy więc w niejasną argumentację z dzielonych kontekstów, bez próby choćby odniesienia się do faktu, że w końcu na rozbudowane pytanie odpowiedział jednak dobrą listą archiwów, niehalucynowanym podzbiorem korespondencji i błędną interpretacja treści korespondencji (bo zakładał, że treść do której dotarł jest wiarygodna).
@Parasol
„No o ile ogólną architekturę znamy, to już wątpię by ktokolwiek z dyskutujących miał info o niskopoziomowych detalach (faktyczną długość kontekstu, sposób przetwarzania większych źródeł, ograniczenia na zapytania do wyszukiwarki, etc).”
Trochę wiem o tym jak działa jeden z najbardziej znanych chatbotów, ale szczegółow oczywiście nie mogę podać. Mogę powiedzieć tylko tyle:
1) to jest skomplikowany, iteracyjny mechanizm w którym kontrola przechodzi od LLM do skryptów z powrotem do LLM, itd.
2) mechanizm się zmienia cały czas, chatbot dzisiaj jest inny niż chatbot parę miesięcy temu, bo zmieniają się możliwości LLMów które napędzają chatbota, inżynierowie eksperymentują z nowymi pomysłami, zmienia się sposób formatowania danych, itd.
3) często nie jest jasne, czemu chatbot nie działa tak jak by użytkownik tego oczekiwał, a z powodów o jakich wspomniałem wcześniej (ochrona danych użytkownika), nie da się przejrzeć logów albo debugować (chyba że użytkownik wyda na to zgodę, ale domyślnie nie loguje się żadnych danych specyficznych dla danego zapytania).
@wo
„Więc faktycznie doceniam, że wskazał te archiwa – ale sam nie wiem czy całościowy pakiet jest opłacalny, wydaje mi się po prostu że jest też ryzyko, że człowiek zacznie „myśleć jak AI”, tzn. nie wpadać na to co dla cybergłupka zbyt nieoczywiste.”
Tu pełna zgoda – uruchamiamy nowy eksperyment, którego skutki są nie do przewidzenia (a doświadczenie z ostatnich 20 lat pokazuje, że mogą być szerokie i w wielu aspektach negatywne).
Badania moim zdaniem się wybronią. Podwójny obieg nie jest tu niczym nowym – szereg wyników przyczynkarskich, niepewnych, błędnych i punktowe wyspy produkujące nową jakość. W tych mocnych ośrodkach LLMy nie odbiorą ludziom krytycznej oceny czy chęci podjęcia wysiłku.
Ale jak już wyjdziemy poza wyspy ze szczelnym sitem rekrutacji i weryfikacji (peer review), to siła rażenia tej technologii może być atomowa. Powyżej @midnight_rambler pisze jak LLMy pomogły mu w pracy – moim zdaniem w bliskiej przyszłości takie produktywne zastosowania nie będą kołem zamachowym biznesu llmów. Wdrożenia z wartością dodaną w realnej gospodarce, w dużej skali? Obstawiam dekady. Więc głównego źródła dochodów spodziewam się obecnie z monetyzowania uwagi jak nigdy w historii. I z monetyzowania lenistwa. Pisałem o tym pod jedną z poprzednich notek – taki “llm” agent może w bliskiej przyszłości układać ludkowi życie od listy krótkich form z sociali, przez meble z Ikea po poradę matrymonialną.
Całościowy pakiet oceniam więc: będzie się działo, przy czym nikt nie wie w którą dokładnie stronę idzie impreza, a właściciel lokalu nie bardzo ma kontrolę.
@rw
„Jednak coś się poprawiło w tych generatorach bulszitu, nie? W ciągu dwóch lat. To co nas czeka np. za pięć lat?”
Cokolwiek nas czeka (obecny model biznesowy faktycznie jest dość bubble’owaty, a technologie rozwoju dość prymitywne, więc różnie może być), to już z tego całego wątku widać, że krytyka obecnych możliwości LLMa sprowadza się do: „jestem wybitnym specjalistą w dziedzinie X, sprawdziłem co w dziedzinie X potrafi chat GPT i wcale nie jest taki lepszy ode mnie”.
Pomijając to, że określonych dziedzinach jest lepszy niż ktokolwiek (może nie konkretnie LLM, ale AI ogólnie), jak znajdowanie nowotworów na zdjęciach RTG czy galaktyk na zdjęciach z teleskopu, a także np. grze w szachy i go, to sama ta linia krytyki AI przypomina stary żydowski dowcip:
Siedzi para w cyrku i ogląda clowna, który stoi na głowie na rowerze, jedną ręką pedałuje, drugą żongluje płonącymi pochodniami, a stopami gra na skrzypcach, po czym mąż nachyla się do żony i ze zdegustowaną miną mówi: „no Paganini to on nie jest”.
Nawiązując do przykładów, które podawałem wcześniej jako moje doświadczenia – jeżeli AI byłoby lepsze od, dajmy na to, 80% specjalistów w danej dziedzinie (przez specjalistę rozumiem np. każdego, kto skończył określone studia) i jest to spełnione dla niemal każdej dziedziny, to już daje to niezwykle użyteczną, przełomową technologię. A podejrzewam, że te 80% to wciąż zbyt skromny szacunek. Tak jak pisałem, dla mnie to poczucie posiadania superpowers, z którego korzystam ile się da, póki się da – bo chociaż wciąż mnie zdumiewa, jak mało ludzi z tego korzysta i wciąż mogę robić za multi-techno-geeka, to nie mam złudzeń, pomału to będzie się stawało powszechne jak kalkulator.
@m_r
„Pomijając to, że określonych dziedzinach jest lepszy niż ktokolwiek (może nie konkretnie LLM, ale AI ogólnie), jak znajdowanie nowotworów na zdjęciach RTG”
Tutaj to byłbym ostrożny, bo ZTCW to „lepsze” AI było w benchmarkach zbudowanych na bazie zdjęć RTG nowotworów, które są dość dalekie od praktyki klinicznej (gdzie np. radiolog musi nie tylko analizować zdjęcia, ale również notatki towarzyszące). Ale, jak już kiedyś chyba tutaj pisałem, w zastosowaniach medycznych AI nie musi być lepsze od ludzi, wystarczy żeby było „wystarczająco dobre” żeby znaleźć zastosowanie np. w Afryce, gdzie ludzkich specjalistów jest mało, a do szpitala często daleko. Można się oburzać, że „dla biednych AI, dla bogatych człowiek”, ale można też zauważyć, że lepszy „taki sobie” radiolog, niż żaden.
@rambler
„jak znajdowanie nowotworów na zdjęciach RTG”
To wielokrotnie debunkowano (poza tym nie RTG tylko tomografii). Świetnie też rozpoznaje nowotwory na zdjęciach sałatki jarzynowej. Poza tym to mit z czasów klasycznego ML, nie LLM.
@parasol
„Tu pełna zgoda – uruchamiamy nowy eksperyment, którego skutki są nie do przewidzenia ”
Jedno można przewidzieć. Od używania GPS do wszystkiego ludzie tracą umiejętność poruszania się po własnym osiedlu, dlatego ja z tej technologii owszem, korzystam – ale tylko gdy naprawdę ma wartość dodaną (już dojechałem do jakiegoś miasta używając metod oldskulowych, typu wiedza że najpierw A2 a potem S3, a teraz przede mną końcowa mila i odszukanie konkretnego hotelu). Pozwala mi to pogardliwie się uśmiechąć gdy czytam o ludziach uwięzionych w korku, bo cybergłupek nie wiedział o jakimś remoncie albo coś „otworzył” bo uwierzył w oficjalny termin otwarcia.
@midnight_rambler
„krytyka obecnych możliwości LLMa sprowadza się do: „jestem wybitnym specjalistą w dziedzinie X, sprawdziłem co w dziedzinie X potrafi chat GPT i wcale nie jest taki lepszy ode mnie”.”
Na odwrót: przeważają opinie, że w wąskich zakresach chat GPT potrafi być znakomity, ale nazwa „sztuczna inteligencja” jest mocno na wyrost.
[jako specjalista w mojej dziedzinie dodam, że chat GPT potrafi już dokonać całkiem sensownej i głębokiej interpretacji utworu literackiego, takiego z kręgu literatury pięknej; co nie zmienia faktu, że jest to maszyna interpretacyjna, a nie inteligencja rozumiana po ludzku, typu: rano wpadło mi coś do buta i przypomniał mi się „Kamyk” Herberta]
@rw
„To jest hype rozkręcony przez naukowców, do którego dołączył przemysł”
Jak Ty sobie wyobrażasz naukowców rozkręcających hype?
„Ktoś inny może będzie umiał. Nie jesteś alfą i omegą.”
Jasne. Ale dopóki nie ma na to żadnych badań, to jaki jest sens takich gdybań?
„rewolucyjna technologia która co najmniej rozwali kryptografię”
Na to akurat są kwity, więc poważni ludzie się szykują:
link to en.wikipedia.org
@WO
„Od używania GPS do wszystkiego ludzie tracą umiejętność poruszania się po własnym osiedlu”
Jak najdosłowniej! Ostatnio moja znajoma nie ruszyła spod domu i czekała w aucie, bo jej się coś zawiesiło. Normalnie nie miała odwagi wrzucić jedynki.
@ergonauta
„jako specjalista w mojej dziedzinie dodam, że chat GPT potrafi już dokonać całkiem sensownej i głębokiej interpretacji utworu literackiego, takiego z kręgu literatury pięknej”
Oczywiście pod warunkiem, że już go ktoś zinterpretował (a cybergłupek se to wygugla).
@wojtek_rr
„Jak Ty sobie wyobrażasz naukowców rozkręcających hype?”
Obiecują korzyści na wyrost, rozbudzając zainteresowanie najpierw administracji rządowych, a potem przemysłu.
Legitymizacja dawana danej technologii / idei przez środowiska naukowe ma znaczenie dla przemysłu. Z jakiegoś powodu firmy technologiczne finansują badania nad komputerami kwantowymi, a nie nad perpetuum mobile. Bo to drugie nie ma legitymizacji akademickiej.
@ergonauta
Jak już jesteśmy przy utworach literackich – twierdzę, że „zasada 80%” spełnia się w dziedzinie pisania tekstów piosenek, tylko prędzej jako „zasada 99%”. Proponuję taki test: niech ktoś puści jakieś Radio ESKA i spisze losowo teksty 100 piosenek, a ja w tym czasie wygeneruję chatem GPT 100 tekstów na te same tematy. Potem zbierzemy dowolne artystyczne konsylium do oceny wartości artystycznej, i stawiam skrzynkę 18-letniego Glenfiddicha za każdą piosenkę z ESKI, która pokona dowolną od chata GPT.
Ale oczywiście można przyjść i lekceważąco stwierdzić, że Nick Cave pisze lepsze. Pełna zgoda. Ale jeśli 80% tekściarzy piszących dla The Generic Pop Artist straci robotę, to ja nie będę po nich płakał.
Swoją drogą, rozrowykowo zdarzało mi się tworzyć jajcarskie kawałki za pomocą combo chat GPT + Suno, zadawałem opisowo o czym ma być tekst, generując potem odpowiedni kawałek w Suno. I przy całej sympatii dla zespołu Nocny Kochanek, to stawiam, że gdybym miał to combo w czasach jak zaczynali grać, to spokojnie wykosiłbym ich z rynku – chociaż nie wiem, czy zadziałałoby z tekstami po polsku (jak wspominałem, pracuję z GPT wyłącznie po angielsku).
@wo
„Oczywiście pod warunkiem, że już go ktoś zinterpretował (a cybergłupek se to wygugla).”
No nie. Ja dawałem GPT (przed 5-tką były w wersji płątnej opcje takich specjalistycznych GPTek, ja brałem specjalistów od poezji) do analizy własne teksty piosenek, nigdy nigdzie nieopublikowane, analizy miał bardzo sensowne i wcale nie włazidupskie.
@rambler
„do analizy własne teksty piosenek”
A czy tak jak niektórzy to opisują, „dałeś mu dostęp do wszystkich swoich dokumentów”?
@rw
„Po trzecie, jeżeli rzeczywiście potrzebujesz przetrawić 100+ źródeł, to i człowiek będzie miał z tym problem, chyba że jest wyszkolony w pracy ze źródłami. Typowy Kowalski polegnie na tym równie szybko, jeśli nie szybciej, co chatbot. Innymi słowami, oceniajmy chatboty krytycznie, owszem, ale używajmy realistycznych baselines.”
Ej, ale jeśli taki chatbot jest reklamowany jako posiadający poziom doktoranta, to realistycznym baseline jest porównanie do doktoranta, czyli osoby jakby regularnie siedzącej w źródłach i je przetrawiającej. Nie jestem pewien czy tak jest, bo akademią się nie zajmuję, ale czy doktorantom nie płacą aby? Czyli to przetrawianie źródeł jest wręcz kwestią zawodową.
Dlatego jak najbardziej zasadnym jest pytanie, czy chatbot faktycznie funkcjonuje na poziomie doktoranta i potrafi trawić źródła w sensowny sposób, czy może jednak ma poziom sroktoranta a reklama jest fałszywa.
@janekr
„Jego przyjaciel z dzieciństwa – znany *informatyk kwantowy*”
Jasne, to może być osoba pracująca z komputerami kwantowymi (w popkulturze nie takie rzeczy przechodzą), ale mi bardziej pasuje informatyk w stanie kwantowym, taki odpowiednik kota Schrödingera. Dopóki go o coś nie zapytasz to jednocześnie jest informatykiem i nie, dopiero sprawdzony kolapsuje i potrafi odpowiedzieć jak naprawić drukarkę („próbowałeś wyłączyć i włączyć ponownie?”) albo że nie wie do czego służy config.xml. Paru takich spotkałem w życiu, niestety.
@rambler
„Proponuję taki test: niech ktoś puści jakieś Radio ESKA”
Ty to umiesz zniechęcić.
@PK
„Ej, ale jeśli taki chatbot jest reklamowany jako posiadający poziom doktoranta,”
No ale kto reklamuje? Sam Altman? Zignoruj kolesia.
@WO
„A czy tak jak niektórzy to opisują, „dałeś mu dostęp do wszystkich swoich dokumentów”?”
Nie wiem jak się to robi, ale brzmi niezwykle kusząco! 🙂
„Ty to umiesz zniechęcić.”
Po prostu łatwy przykład branży, gdzie GPT kosi większość „specjalistów”, i tak, mnie też sam fakt istnienia tej branży smuci, biorąc pod uwagę jej poziom. Ale nie trzeba się znęcać ESKĄ, weźmy choćby wczesne The Beatles: „Kochaj, kochaj mnie, wiesz, że kocham cię, to zawsze będzie prawda, więc może pokochaj mnie..?” – „Chcę trzymać cię za rękę, chcę trzymać cię za rękę, chcę trzymać cię za rękę…”
Taki Jacek Cygan dorobił w swojej branży się fortuny większej niż jakakolwiek z gwiazd, dla której pisał teksty, a jego (a raczej jego anglosaski odpowiednik) to może nie 100:0, ale na punkty raczej też GPT by pokonał.
@wojtek_rr
„Jak Ty sobie wyobrażasz naukowców rozkręcających hype?”
Pewnie by trzeba było zdenifniować co ruzumiemy przez hype, ale mody w nauce były długo przed wynalezieniem internetu. Z czasów mi współczesnych, w mojej działce mógłbym wskazać spokojnie kilka mód i trendów rozkręconych przez naukowców a podchwyconych później przez firmy. Regulatory T cell, za odkrycie których przyznano w tym roku Nagrodę Nobla, są tego najlepszym przykladem. Hipoteza, że takie komórki powinny istnieć tliła się długo, ale eksplozja artykułow na ten temat to wczesne lata dwutysięczne.
@Piotr Kapis
To wróćmy do Kopernika i wyników powyżej (linki do markdownpaste) – może ktoś siedzi w działce i oceni: klęska/leniwy doktorant/doktorant.
Możemy od razu przyjąć, że w warstwie interpretacji klęska. A na poziomie samej kwerendy? Są luki, to wiemy. No ale, kto pracuje z doktorantami w zbliżonej działce: jaki werdykt? Najlepiej na tle faktycznych wyników pracy, nie ideału pracownika doskonale okrągłego.
@parasol
Oczywiście nie siedzę w działce, ale wydaje mi się że Twój eksperyment rzeczywiście wyszedł poza poziom studenta (choć możemy się bawić w „licencjat czy magisterka”), a rozmowa typu „naprawdę pan myślał, że korespondencja na ten temat ustała po śmierci Kopernika?” pewnie mogłaby się naprawdę wydarzyć.
@Parasol
„No ale, kto pracuje z doktorantami w zbliżonej działce: jaki werdykt? Najlepiej na tle faktycznych wyników pracy, nie ideału pracownika doskonale okrągłego.”
O tym samym pomyślałem, kto z PT Komcionautów miał do czynienia z doktorantami i zna możliwości doktorantów istniejących współcześnie w przyrodzie. Idealny pewnie by znalazł, ale taki rzeczywisty dalece niekoniecznie. Wyszukiwanie nieoczywistch źródeł i ich interpretacja to coś czego najtrudniej nauczyć.
@kot
Miałem stażystów (w okolicy magisterki z IT). Poziom różny. Jedna stażystka była super, bardzo samodzielna, sama wymyśliła sobie projekt, musiałem tylko czasami doradzić, kiedy się na czymś zacięła. Inni z kolei chłopcy byli bardzo tacy sobie, dostali dobrze określony projekt a i tak zrobili coś innego, bo im się tak bardziej podobało.
@midnight_rambler
„niech ktoś puści jakieś Radio ESKA”
Żeby tylko ESKA. Od jakiegoś czasu mam ustawione Rock Radio i bywa fajnie, ale jak się trafia polski rock to nierzadko palec leci w stronę mute. Po prostu nie mogę gdy słyszę „Szła biedronka po zasłonkach” czy „Kiedy siedzę na maszynie (…) Harley mój, ło-ho-ho, to jest to”. A jeśli nie teksty to wokal (Nosowska to się nadaje najwyżej do wydzierania przy ognisku a nie profesjonalnego śpiewania, don’t change my mind).
@”poziom doktoranta”
Oceniacie krytycznie możliwości LLMa w stosunku do tego sloganu – i dobrze, skoro ktoś akurat taki slogan wymyślił, to niech cierpi. Dla mnie jednak GPT to mniej naukowiec (bo doktorant to właśnie naukowa ścieżka), ale przede wszystkim osobisty napakowany geek-linuksiarz.
@Piotr Kapis
Pełna zgoda, niestety. Dla porównania, niejako w temacie wspomnianego Nocnego Kochanka. W tej mojej fabryce w Belgii raz nowa winda towarowa nie przeszła odbioru belgijskiego UDT, bo nalepka znamionowa miała znaczek CE ze źle wydrukowanym „E”. Musiałem czekać dwa dni aż hiszpański przedstawiciel producenta dośle mi pdf z poprawnym znaczkiem, w tym czasie linia stała, a produkowaliśmy tam m.in. środek do dezynfekcji krowich wymion do maszyn dojarskich. Mimo powagi absurd tej sytuacji mnie tak rozbawił, że opisałem czatowi sytuację i kazałem na jej bazie GPT+Suno napisać apokaliptyczną pieśń w stylu Iron Maiden o tym, jak świat ogarnia zagłada z powodu globalnego braku mleka. Ludzie, którym to puściłem, płakali ze śmiechu, ja zresztą też. Wyobraźcie sobie refren śpiewany z dramatyzmem Dickinsona z jakiegoś „Childhood’s End”:
The world turned dark, the milk turned sour,
Factories fell in the final hour,
One opinion sparked the fire,
The dairy dream devoured.
@kot immunologa
„ale mody w nauce były długo przed wynalezieniem internetu.”
Mody były, są i będą. Ale 'eksplozja artykułow’ to nie są dziesiątki milionów dolarów inwestowane w rozwój komputerów kwantowych. Według mnie wpływ na to naukowcy mają znikomy. Dokładne mechanizmy tworzenia się takiej kuli śniegowej są fascynujące.
@WO
„Oczywiście pod warunkiem, że już go ktoś zinterpretował (a cybergłupek se to wygugla).”
To akurat łatwo poznać, bo cybergłupek zwykle – jakby dawał znak: hej to ja! – pomija jakiś arcyważny dla tekstu i arcybanalny do wychwycenia przez człowieka szczegół.
@midnight_rambler
„niech ktoś puści jakieś Radio ESKA i spisze losowo teksty 100 piosenek, a ja w tym czasie wygeneruję chatem GPT 100 tekstów na te same tematy.”
Tu się chyba zgodzimy: Radio ESKA miało dostęp do chata GTP już 30 lat temu (wtedy to była supertajna technologia, tylko dla U.S. Army i Radia ESKA), a on im pisał te piosenki i halucynował tych niby prawdziwych wykonawców.
@Parasol
„Szczerze powiedziawszy nie bardzo rozumiem ten argument. Ten LLM ma kilkadziesiąt miliardów wag (dokładna liczba nie jest znana). Wychodzi z tego kilkadziesiąt (może ponad setka) gigabajtów, w których można kompresować informacje z tekstu. Zapytany o query dot. Kopernika zaczyna od archiwum Dantyszka – to zapytanie konstruuje bez wyszukiwania czegokolwiek w internecie. Jak dla mnie są to znamiona „pamięci”. No chyba, że argumentujesz, że nie pamięta niczego w takim sensie, w jakim dysk SSD nie pamięta niczego, bo jest tylko kawałkiem krzemu, plastiku i metalu.”
Chodzi mi o to, że te informacje z tekstu nie są przechowywane w znaczeniu, w jakim my rozumiemy przechowywanie informacji. Model nie zawiera w sobie żadnych informacji tekstowych, on przechowuje jedynie statystyczne zależności między tokenami. LLM nie potrafi w żaden sposób wyszukać w swoich zasobach konkretnej informacji, bo model nie zawiera w sobie żadnych zasobów. Potrafi jedynie wygenerować prawdopodobny ciąg dalszy wcześniejszych tokenów, a jeżeli w danych źródłowych informacje, które Cię interesują są wielokrotnie powiązywane z informacjami, które przypominają zadane przez Ciebie pytanie, to tym większe jest prawdopodobieństwo, że potem w trakcie generacji tokenów model przejdzie z punktu A do punktu B.
@ergonauta
„Tu się chyba zgodzimy (…)”
Gdzieśtam na jakimś poziomie chciałbym się zgodzić, jako przynależący do tego gatunku, ale to jednak byłoby wyparcie. Możemy/możecie przypisywać AI bycie głupią czy żenującą, ale w żadnym razie nie wymaże tego ogromu głupoty i żenady, które nie tylko zdarzają się, ale raczej są typowe dla gatunku ludzkiego.
@wojtek_rr
„Mody były, są i będą. Ale 'eksplozja artykułow’ to nie są dziesiątki milionów dolarów inwestowane w rozwój komputerów kwantowych. Według mnie wpływ na to naukowcy mają znikomy”
Nie znam się na komputerach kwantowych, więc bardzo możliwe, że i ty też masz rację. Jednak wszystkie przełomowe terapie oparte na immunologii, jakie znam, a tym bardziej sama koncepcja wykorzystania układu odpornościowego w terapii nowotworów, są czystą idée fixe naukowców, którzy promują ją od dziesięcioleci.
Mało tego, znając nieco ten biznes od strony big farmy, postwawiłbym tezę odwrotną, mianowicie bardzo ciężko się przebić z czymś radykalnie nowym jeśli nie ma to mody/hype pierowotnie wygenerowanej przez naukowców. Wielkie koncerny nie mają swoich pomysłow, w chwalebnym wyjątkiem BioNTech. Bazują na tym co inni wymyślą, im bardziej hype tym lepiej. Nie zawsze z sensem. Wspomniane T regs słabo się nadają do terapii co nie przeszkadza nikomu topić grubych milionów w takie projekty. W drugą stronę też to działa – nawet świetnie opisane mechaniznmy czy cząsteczki, jeśli są niszowe się nie przebijają. I to dosłownie chodzi o liczbę publikacji, musi ich być dużo. Nie ma hype nie ma kasy na wdrożenia.
@rambler
„Ale nie trzeba się znęcać ESKĄ, weźmy choćby wczesne The Beatles”
Bitelsów nie cenię sobie AKURAT za teksty, a wczesnych to już w ogóle cenię sobie głównie za ich covery amerykańskiej klasyki (i wtedy, o dziwo, teksty bywały znośne – bo nie ich, „I need money, that’s what I want”).
@Parasol
„tym większe jest prawdopodobieństwo, że potem w trakcie generacji tokenów model przejdzie z punktu A do punktu B.”
I jeszcze kończąc myśl – chodzi mi tutaj o to, że tak jak napisał bokononowicz – model przy niewłaściwym prompcie nie jest w stanie skojarzyć faktów, bo on tak naprawdę ich nie zna. Często zaskakuje dopiero przy właściwym prompcie, bo we właściwym prompcie kombinacja tokenów akurat jest taka, że tym razem wrzuci go w odpowiedni obszar przestrzeni reprezentacji. To była analogia z żartami o sporcie – jak zbudujesz odpowiedni kontekst, to masz większe szanse na to, że modelem zarzuci w pożądane obszary.
Przy czym to też nie jest deterministyczne – znajdziesz właściwy prompt, puścisz, uda się, a za drugim razem już nie, bo akurat inaczej zawiało.
To co pisze kolega @midnight_rambler trafia w samo sedno i bardzo rezonuje ze mną. Dokładnie tak: LLMy dają ci 'superpowers’, nagle jestem w stanie robić rzeczy, których wcześniej bym nie tknął, bo szkoda czasu i nie warto, za dużo zachodu, no i w ogóle mało o tym wiem i lepiej już tam podziobie sobie co trzeba ręcznie niż komuś mam truć dupe, bo przecież każdy tak robi.
Będę brzmiał jak jakiś szil i klakier, ale znowu, narzędzia jak Claude Code albo Codex (’darmowe’, jeśli masz subskrypcję Anthropic albo ChatGPT) podnoszą te superpowers na zupełnie nowy poziom. Żadnego kopiuj-wklej błędów do okienka czata, z tymi toolami LLM sam jest w stanie samodzielnie stworzyć, uruchomić i zdebugowac każdy kod, do praktycznie każdego zadania, na podstawie twojego unikalnego środowiska.
Przykład: co parę miesięcy muszę zrobić jakiś dziwny raport sklecony z wielu dziwnych kawałków danych z kilku dziwnych miejsc. Zajmuje to prawie cały dzień, ale process jest na tyle zmienny i rzadki, że utopienie tygodnia na dobre zautomatyzowane tego (i to tylko do czasu – dopóki wymagania znowu się nie zmienią) nie ma za bardzo sensu.
Z Claude Code, cały problem sprowadza się do: „Tu masz plik csv z danymi, tutaj jest spredszit z tym i tym, w tym katalogu masz pdfy z czymśtam a tu jest adres REST API z którego można pobrać to i to. Chcę skleić z tego wszystkiego X, Y, Z, ma wyglądać tak i tak, w formacie jakimśtam.”
Idę na kawę, wracam po 10 minutach, i mam gotowe rozwiązanie. Spędzam może z pół godziny sprawdzając wszystko i ewentualnie prosząc o jakieś ulepszenia. Jeśli mi się bardzo rezultat podoba, to mówię mu żeby ustawił crona coby generował to coś automatycznie co parę miesięcy. Resztę dnia spędzam na czymś ciekawszym niż dziobanie raportów.
Tego typu zadań pojawia mnóstwo każdego dnia. W przeszłości, za wiele z nich nie było sensu się brać, bo włożony czas nie byłby wspomierny do efektów. Teraz mogę sporo oddelegować to do 'AI interna’, który ma głęboką wiedzę o wszystkim – a jak o czymś nie ma, to poszuka sobie w internecie (tutaj narzędzia jak np. Context7 MCP są bardzo przydatne).
Jasne, trzeba wszystko sprawdzać, trzymać rękę na pulsie, i można filozofowac czy to 'prawdziwa’ inteligencja, ale efekt jest taki, że zadania które normalnie zajęłyby mi długie dnie czy nawet tygodnie (jeśli wliczyć czas potrzebny na naukę i research) są do wykonania potencjalnie w ciągu minut. Jakość kodu nie ma tu znaczenia, o ile robi to co chce, wszystko dzieje się tak szybko, że nie ma on żadnej wartości, mogę go sobie kasować i generować od nowa za każdym razem, jeśli mam taki kaprys. Ta cała 'komodytyzacja inteligencji’ to taki mem i cringe SV oczywiście (vide napruty Sam Altman), ale coś w tym jest w tym przypadku.
I tak samo dziwi mnie, że bardzo niewielu korzysta z tych 'supermocy’, nawet w instytucjach mocno technicznych i wydawałoby się 'na czasie’. W najlepszym wypadku coś tam próbują siermieznie czatować z LLM, typu 'zaplanuj mi wyjazd na wakacje’
Być może częściowo problem polega na tym, że rozwoj tej dziedziny jest mega szybki. Taki Claude Code (i koncept LLM używających narzędzi w twoim własnym środowisku) istnieje dopiero od jakiegoś pół roku. Modeli typu 'reasoning’ rok temu w zasadzie nie było (dopiero wtedy co wyszedł o1 preview). Dwa lata temu, jakiekolwiek programowanie z LLM to był żart i płacz (GPT-4 Turbo
… ). Jeśli ktoś w 2024 spróbował 'AI’ w ChatGPT, mógł rzeczywiście wyciągnąć wniosek, że fajne to, ale do niczego praktycznego się nie nadaje – i niespecjalnie dalej drążyć temat (no bo po co).
@lll
„I tak samo dziwi mnie, że bardzo niewielu korzysta z tych 'supermocy’,”
Toteż czytam waszą rozmowę bardzo uważnie, ale cały czas nie widzę zastowań dla mnie. Nawet nazywając to „supermocami”, to jakby miał mieć supermoce Aquamana mieszkając na pustyni. Najlepsze co udało się wygenerować kol. Parasolowi to nadal nie są „supermoce” w sensie „coś czego bym sam nie umiał”. I w moich zastosowaniach ja tego nadal nie widzę, ani w rekreacyjnych ani w zawodowych. Za to uczucia najbliższe temu, co opisuje kol. Rambler (że wyskoczyłem z budki telefonicznej z supermocami), nierzadko daje mi wizyta w bibliotece. Takiej papierowej. Wchodzę nic nie wiedząc o zbiorach buraków w Patagonii, wychodzę jako burakopatagoniolog.
@rw
„Po pierwsze, bieżący kontekst jest coraz większy. GPT-5 ma 400,000 tokenów. Owszem, nigdy nie zaleca się wysycania tego kontekstu, ale problem „nie zmieści się w okienku” jest coraz mniej istotny.”
Ale tu nie chodzi tylko o maksymalny rozmiar kontekstu. Nawet jakbyśmy mieli okno 100 milionów tokenów, to LLM i tak będzie gubił wątek jak przy obecnych oknach, bo im dłuższy tekst, tym więcej rzeczy mu się rozpada i nie jest w stanie utrzymać pełnej świadomości kontekstu, bo najważniejsze są i tak najświeższe tokeny. Tak więc nawet przy takim oknie i tak byśmy dzielili te zadania na zapewne tyle samo kontekstów, co teraz.
100 źródeł to była hiperbola. Problem polega nie na rozmiarze kontekstu, tylko w ogóle na dzieleniu zadania na konteksty. No siłą rzeczy zsynchronizowanie ze sobą x sesji to ogromne wyzwanie, które zawsze będzie mega podatne na błędy, bo jak pracujesz iteratywnie, to każdy kolejny krok zakłada, że poprzedni dobrze się podsumował, a do tego masz jeszcze pierwotny prompt użytkownika, który trzeba jakoś pożenić z tym wszystkim. Tak więc nawet jak na etapie wyszukiwania źródeł prompt systemowy jakoś go ukierunkuje na to, czego szuka użytkownik, to po drodze jeszcze jest x kontekstów z innymi promptami, które mogą się w tym pogubić, a nawet jak się nie pogubią, to jak wrócisz do pierwotnego kontekstu, z którego odpaliło się wyszukiwanie, to ten kontekst wcale nie musi tego poprawnie zintegrować.
@wo
„Za to uczucia najbliższe temu, co opisuje kol. Rambler (że wyskoczyłem z budki telefonicznej z supermocami), nierzadko daje mi wizyta w bibliotece.”
Naprawdę chodzi o moje posty? Bo wizyta w biblotece daje Wiedzę (i w zasadzie nic ponad to), natomiast wszystko, co opisałem, sprowadza się do: „jestem za leniwy na przyswajanie Wiedzy, weś to zrób za mnie”.
Co do buraków w Patagonii, w moim pierwszym poście napisałem coś takiego: „Np. nie widzę sensu traktować GPT jak Google”; może powinienem rozwinąć, że tym bardziej nie ma sensu traktować jak biblioteki papierowej. Niemniej będę się upierał, że biblioteka papierowa nie napisze mi makra VBA do przesłania sformatowanych danych z formularza na email.
@LLL
„I tak samo dziwi mnie, że bardzo niewielu korzysta z tych 'supermocy’, nawet w instytucjach mocno technicznych i wydawałoby się 'na czasie’.”
Ja mogę mówić za siebie, ale powodów jest parę. Jeden to coś co WO już poruszał – oddawanie obcym korporacjom cudzej własności intelektualnej. Dla mnie o tyle ważne, że sam pracuję dla korporacji która musi o to szczególnie dbać. Nawet nie chodzi o to, że nie chce ryzykować wycieku własnych danych, tylko ze względu na specyfikę branży mamy mnóstwo regulacji urzędniczych i grożą nam spore kary za naruszenia. Więc ja nie mogę wrzucić wewnętrznych dokumentów do obcej AI.
Jest na to rozwiązanie, stawiamy własną! To znaczy model jest od którejś z tych wielkich korpo, ale postawiony wewnętrznie, nakarmiony tylko naszymi danymi, z założenia nieco ograniczony żeby nie zrobił czegoś głupiego. No i tu leży pies pogrzebany, bo chociaż zachęcają nas do korzystania, to póki ci to nasze AI może stosunkowo niewiele.
Postanowiłem dać mu szansę – bo ja mimo mojej niechęci naprawdę nie uważam, że to narzędzie jest bezużyteczne – i dałem mu proste zadanie, które mogłbym bez problemu zweryfikować. „Znajdź mi zapisy w dokumentach poziomu policy, standard albo process manual, które mówią o X”. Odpowiedź AI: „niestety nie mam dostępu do tych dokumentów”.
Czyli żeby mi znalazł to o co proszę muszę mu najpierw ręcznie wskazać repozytorium. Albo może nawet gorzej, załadować do niego konkretny dokument. Czyli na moje potrzeby to jest gloryfikowane „CTRL+F”. Jeśli ja wiem w którym dokumencie znajduje się to czego chcę to sam sobie wyszukam i jeszcze przy okazji zobaczę co więcej się tam znajduje – czasami inne sekcje prowadzą do ciekawych spostrzeżeń. Może jak to rozwiną to będzie bardziej przydatne, ale na razie wychodzi na to, że to ja muszę odwalić robotę i podać mu na tacy zasoby, żeby AI wykazało się szybszym procesowaniem informacji.
Trochę jak z tym szmoncesem o proszku do zabijania pcheł. Żeby go zastosować trzeba najpierw złapać pchłę w rękę.
A do zastosowań osobistych AI nie jest mi potrzebne, bo jestem minimalistą. Do jeżdżenia po mieście mam nawigację. Nie chcę żeby AI mi streszczało książki bo z czytania czerpię przyjemność. Nie będzie za mnie malować figurek (ani bym nie chciał żeby to robiło). Może jeśli zacznie odkurzać, wynosić śmieci i gotować ryż dokładnie tak jak lubię to mi się przyda, ale póki co nie potrafi.
Są ludzie dla których to są bardzo przydatne narzędzia. Przypadek midnight_ramblera absolutnie mnie przekonuje i cieszę się, że komuś to pomaga. Ale w moim przypadku to się nie sprawdza. Być może tylko „jeszcze”.
@karmazynowa klamerka
“Chodzi mi o to, że te informacje z tekstu nie są przechowywane w znaczeniu, w jakim my rozumiemy przechowywanie informacji. Model nie zawiera w sobie żadnych informacji tekstowych, on przechowuje jedynie statystyczne zależności między tokenami. LLM nie potrafi w żaden sposób wyszukać w swoich zasobach konkretnej informacji, bo model nie zawiera w sobie żadnych zasobów. Potrafi jedynie wygenerować prawdopodobny ciąg dalszy wcześniejszych tokenów, a jeżeli w danych źródłowych informacje, które Cię interesują są wielokrotnie powiązywane z informacjami, które przypominają zadane przez Ciebie pytanie, to tym większe jest prawdopodobieństwo, że potem w trakcie generacji tokenów model przejdzie z punktu A do punktu B.”
No tu po prostu się mylisz. To że generacja odbywa się przez przewidywanie tokenów, nie oznacza, że w wagach nie ma skompresowanej informacji z tekstu. Fachowo taki model prawdopodobieństwa w postaci iloczynu rozkładów warunkowych zowie się modelem autoregresywnym. Sam fakt wyrażenia w ten sposób gęstości prawdopodobieństwa nie implikuje, że w tej gęstości nie ma informacji z danych. Lub inaczej: bez informacji z danych, szansa na wygenerowanie z takiego rozkładu zapytania jak w moim przykładzie byłaby na poziomie szansy zagrania ballady Chopina przez przypadkowe stukanie w klawisze. Lub jeszcze inaczej: widząc kogoś grającego balladę Chopina możesz w miarę bezpiecznie założyć, że ma zapamiętaną jakąś wiedzę o tym utworze.
@przydatność AI
Ja tak dość sceptycznie się odzywam, bo nie znoszę AI hype’u, ale korzystam i bardzo sobie cenię w pracy. Firma nam wykupiła konta cursorowe, z oficjalnym błogosławieństwem dajemy modelom pełen dostęp do naszych codebasów i w takich codziennych pracach utrzymaniowych to jest mega ułatwienie. Trzeba pilnować, jasne, ale nawet wliczając pilnowanie, to Cursor mi bardzo przyspiesza ogarnianie podstawowych spraw, a jednak większość prac to są właśnie takie banały – dodaj pole, rozpropaguj, napisz test jednostkowy. A w bardziej zaawansowanych ficzerach pomaga zacząć, rozpisać boilerplate i można szybciej zacząć właściwe prace. Albo przeanalizować nieznany codebase. Pisałam też już w komentarzach jakiś czas temu, że bardzo lubię uczyć się z AI fafnastego języka programowania.
Ale w życiu osobistym staram się unikać kodowania przy użyciu AI z kilku przyczyn, m.in. tego, co napisał WO – jak koduję coś swojego, to wolę to robić sama. Budowanie architektury i algorytmów to największa radocha, jaką mam z kodowania. Rozumiem przyspieszanie tego w robocie, jak pracuję nad jakimiś nudnymi bzdetami, ale jak sama sobie koduję, to robię tylko naprawdę interesujące mnie rzeczy, które sprawiają mi przyjemność. Nawet z autoformatera wtedy nie korzystam, bo lubię sobie sama powcinać w ramach zen.
Poza tym płonące drzewa, własność intelektualna i inne takie, ale tak naprawdę drugim najważniejszym powodem, dla którego prywatnie staram się unikać pomocy AI jest to, że mnie to po prostu rozleniwia i nie jest tak stymulujące jak osobiste eksperymentowanie. Lubię ewentualnie wkleić moje rozwiązanie AIowi i zapytać, co o nim sądzi i chwilę poodbijać od niego piłeczkę, bo to jest spoko i nie muszę męczyć żywego człowieka, jak mam coś do skonsultowania.
Unikam jednak jak ognia proszenia go o konkrety, bo w pracy tak robię, a potem za każdym razem się okazuje, że bez tego czuję się dziwnie. Muszę się za każdym razem przyzwyczajać, jak wracam do moich projektów, że teraz robię sama i mnie przeraża, że aż tak się do tych narzędzi przyzwyczaiłam. No, tak więc po pracy zawsze robię sobie detoks od AI, bo zwyczajnie nie chcę sobie stępić umiejętności samodzielnej pracy.
@Parasol
„No tu po prostu się mylisz. To że generacja odbywa się przez przewidywanie tokenów, nie oznacza, że w wagach nie ma skompresowanej informacji z tekstu. Fachowo taki model prawdopodobieństwa w postaci iloczynu rozkładów warunkowych zowie się modelem autoregresywnym. Sam fakt wyrażenia w ten sposób gęstości prawdopodobieństwa nie implikuje, że w tej gęstości nie ma informacji z danych. Lub inaczej: bez informacji z danych, szansa na wygenerowanie z takiego rozkładu zapytania jak w moim przykładzie byłaby na poziomie szansy zagrania ballady Chopina przez przypadkowe stukanie w klawisze. Lub jeszcze inaczej: widząc kogoś grającego balladę Chopina możesz w miarę bezpiecznie założyć, że ma zapamiętaną jakąś wiedzę o tym utworze.”
Tak, tam jest informacja wyciągnięta *Z* tekstu, w formie różnych relacji statystycznych między tokenami, ale nie ma tam tego tekstu jako takiego. Model nie ma do tego tekstu ani do zawartych w nim bezpośrednio informacji żadnego dostępu, ma za to dostęp do reprezentacji, które pozwalają mu z pewno dozą prawdopodobieństwa zrekonstruować pierwotną informację w reakcji na odpowiednie dane wejściowe. Ja bym tego nie nazwała pamiętaniem. Pamiętanie sugeruje bezpośredni dostęp do danej informacji, a tutaj nie ma żadnego bezpośredniego dostępu. Jest tylko wrażenie pamiętania.
@klamerka
„A w bardziej zaawansowanych ficzerach pomaga zacząć, rozpisać boilerplate i można szybciej zacząć właściwe prace.”
To może zależeć od konkretnej technologii, ale przed LLM wiele frameworków po prostu miało skrypt albo programik do wyklikania, generujący szkielet aplikacji z całym niezbędnym boilerplatem. Także nie rozumiem trochę tego zastosowania że „wygeneruje mi boilerplate”, moje IDE też generuje i to od jakiegoś 2014, tylko ma gorszy marketing i ludzie nie wiedzą o tych opcjach.
@procyon
„To może zależeć od konkretnej technologii, ale przed LLM wiele frameworków po prostu miało skrypt albo programik do wyklikania, generujący szkielet aplikacji z całym niezbędnym boilerplatem. Także nie rozumiem trochę tego zastosowania że „wygeneruje mi boilerplate”, moje IDE też generuje i to od jakiegoś 2014, tylko ma gorszy marketing i ludzie nie wiedzą o tych opcjach.”
Nie mówię o nowych projektach, tylko o rozszerzaniu istniejących. Że wiesz, trzeba np. wyklikać obsługę logowania OAuth w aplikacji, LLM szybko dorzuci Ci bibliotekę klienta, wrzuci co trzeba w kontekst, zainicjalizuje, a Ty możesz ogarniać konkrety, jakie uprawnienia komu itd. Albo np. refactor typu przejście na go-cmp we wszystkich testach jednostkowych zamiast ręcznego porównywania. LLM się do tego świetnie nadaje.
@Piotr Kapis
„bardziej pasuje informatyk w stanie kwantowym, taki odpowiednik kota Schrödingera.”
Ale tu mowa o osobie zamordowanej. Kto by chciał zabijać informatyka Schrödingera?
delikatnie przypomnę, że ze 250 komentarzy temu potestowali użyszkodnicy kilak modeli LLM/AI/cokolwiek to jest – żaden nie udzielił poprawnej odpowiedzi o prawników noszących togi.
A nie jest to trudne pytanie.
@Michał Maleski
Warto też pamiętać, że LLMy są szkolone przede wszystkim na informacjach w języku angielskim. Nie ma oficjalnych danych, ale szacunkowo to będzie coś 80-95% danych. Tak więc pisanie prompta w języku innym niż angielski mocno ogranicza możliwości modelu, zwłaszcza w przypadku konkretniejszych tematów.
@karmazynowa klamerka
„Warto też pamiętać, że LLMy są szkolone przede wszystkim na informacjach w języku angielskim. Nie ma oficjalnych danych, ale szacunkowo to będzie coś 80-95% danych. Tak więc pisanie prompta w języku innym niż angielski mocno ogranicza możliwości modelu, zwłaszcza w przypadku konkretniejszych tematów.”
Tak by się intuicyjnie wydawało, a jednak… link to arxiv.org
„Surprisingly, English is not the top-performing language on long-context tasks (ranked 6th out of 26), with Polish emerging as the top language.”
@rw
Tak, na tematy wspólne daje radę, ale zejdź na tematy konkretnie polskie, jak właśnie polskie zawody prawnicze noszące togi albo polski system szkolnictwa, to będzie 1000x gorzej, niż gdybyś zapytał po angielsku o ekwiwalent amerykański albo brytyjski.
@wo „Mam na przykład bajzel w winylach i przydałaby mi się aplikacja identyfikująca je przed kamerą i generująca z tego plik XLS albo w ogóle konto w Discogs. Ale takiej chyba nie ma?”
No w tym roku coś drgnęło, i możliwe, że już taką prostą apkę da się stworzyć „vibe”-kodując, czyli maglując jakiegoś nie-darmowego LLMa, bez poprawiania wygenerowanego kodu „ręcznie”. Aczkolwiek mam obawy o to rozpoznawanie kamerą, bo gdy znajomemu wypadł ząb i wrzucił zdjęcie do czata, ten orzekł, że to „rzadki okaz bursztynu” 🙂
Przy tym to nadal jest tłumaczenie maszynowe, tylko takie z języka naturalnego na instrukcje dla komputera. W życiu zaś może się okazać tak, że trzeba korzystać z biblioteki libAPI 0.911, w której pomiędzy każdym wywołaniem A i B musi zostać wywołane C, z odpowiednimi parametrami – inaczej nie bangla. No i teraz LLM-owa sztuczna inteligencja raz zrobi to dobrze, a raz nie. Pół biedy jak to jest dobrze udokumentowane, jak nie jest, to pozostaje metoda prób i błędów. O ile dobrze rozumiem, state-of-the-art jest, że jak wydasz hajs na płatną wersję „agentic” to możesz pójść zrobić sobie obiad, a w tym czasie robot będzie testować różne warianty, aż znajdzie banglający. Natomiast poziom doktoranta (czy wręcz doktora – w oryginalne Sam Altman mówił o PhD-level) to jest taki, że zagląda w kod tej biblioteki i już rozumie, o co chodzi z wywoływaniem C i dlaczego przekazane mu parametry muszą być takie a nie inne (w zależności od parametrów A i B, i czego tam jeszcze). A prawdziwe AI byłoby nawet w tym lepsze od doktoranta, bo w odróżnieniu od ludzkiego doktoranta nie straszne mu by było, że biblioteka libAPI jest skompilowana, bez źródeł.
Nauka na poziomie doktoranckim nie jest jednorodna, sądzę jednak, że jest to odległa analogia do tej sytuacji z przeczesywaniem archiwum Dantyszka – i tu i tam rzecz się rozchodzi o rozumienie źródeł 😉
Względem zastosować hobbystycznych, rekreacji, pisarstwa – sporadycznie LLMy potrafią zadziwić. Gdyby Umberto Eco pisał dziś „Imię Róży” i potrzebował pomysłów na zbrodnie kojarzące się z kolejnymi trąbami apokalipsy, to jako taki pejzażysta semiotyczny LLM poradziłby sobie. A z innej beczki, rymowanki – z początku ChatGPT umiał w rymy angielskie, ale polskie nie; teraz już jest lepiej:
Pewien Wojtek, co lubi mieć rację,
z LLM-em przeżył frustrację.
Pytał: „Do czegoś ty, bracie?”
A model na to w swej gracji:
„Do pisania limeryków, jak macie!”
@Michał Maleski
Tutaj już wrzucałem odpowiedź Copilota (m365 z opcję chat-gpt-5) link to markdownpaste.com. Zrozumiem, że jest błędna?
@wolny nick:
Tak – znowu zgubił radców PG (nie są to radcowie prawni), dorzucił ławników (co do zasady nie-prawnicy, to ma być czynnik społeczny); w zakresie pełnomocników zawodowych w ogóle nie zrozumiał o co nam chodzi.
@Galahi Simtam
„Natomiast poziom doktoranta (czy wręcz doktora – w oryginalne Sam Altman mówił o PhD-level) to jest taki, że zagląda w kod tej biblioteki i już rozumie, o co chodzi z wywoływaniem C i dlaczego przekazane mu parametry muszą być takie a nie inne”
Nie ma problemu, odpalasz CC, moziwsz mu żeby znalazł źródło danej libki, i spokojnie temat ogarnie sobie sam i dojdzie do tego co i jak.
„A prawdziwe AI byłoby nawet w tym lepsze od doktoranta, bo w odróżnieniu od ludzkiego doktoranta nie straszne mu by było, że biblioteka libAPI jest skompilowana, bez źródeł.”
Również jak najbardziej możliwe w CC, modele Anthropic są bardzo dobre w wykorzystywaniu wszelakich linuxowych narzędzi jak readelf, objdump, dekompilatorow etc – spokojnie sobie z takim zadaniem poradzi.
Ciekawe jest to jak wielka rozbieżność istnieje w ogólnej percepcji odnoście 'czego to LLM nie mogą’ vs faktyczne umiejętności 'współczesnych’ LLM…
> wszelakich linuxowych narzędzi jak readelf, objdump, dekompilatorow etc – spokojnie sobie z takim zadaniem poradzi.
Sprawdałoś? Ludzie wizualizują binaria jako obrazki i wrzucają do modeli wizualnych żeby analizować, takie LLM są dobre. W Twoich fantazjach by jeszcze przepisały heksametrem w LOLCODE? Fantastycznie musi się żyć w takim świecie, niezmąconym wiedzą, kiedy samo byś nie umiało odpowiedzieć na proste dlaczego binarki w większości składają się z objdump -d /usr/bin/* | cut -f3 | grep -oE „^[a-z]+” | sort | uniq -c
Umberto Eco po wszystkim co napisał o mechanice faszyzmu i cofnięciu z tradycji pisanej (analitycznej) do oralnej (hasłowej, podcastowej) prędzej strzeliłby sobie w łeb niż pisał analityczny procedural papkowo z LLM.
Ja raz próbowałam pytać LLMa o asembler Z80, to był dramat. O ile w C jeszcze jakoś się orientuje, o tyle w asemblerze było tyle halucynacji, że bardziej to przeszkadzało niż pomagało. Może coś się zmieniło od tamtego czasu, ale wątpię, Myślę, że materiałów z asemblera jest zwyczajnie za mało, a co dopiero rzeczy typu reverse engineering.
@”poziom doktoranta”
@Piotr Kapis / Parasol / kot_immunologa / midnight_rambler
„O tym samym pomyślałem, kto z PT Komcionautów miał do czynienia z doktorantami i zna możliwości doktorantów istniejących współcześnie w przyrodzie. Idealny pewnie by znalazł, ale taki rzeczywisty dalece niekoniecznie. Wyszukiwanie nieoczywistch źródeł i ich interpretacja to coś czego najtrudniej nauczyć.”
Powtórzę, rzeczywiści doktoranci / doktorzy istniejący w przyrodzie radzą sobie w mojej ocenie zdecydowanie gorzej w znajdowaniu nieoczywistych źródeł literaturowych w biomedycynie niż Claude i Perplexity—i to w darmowych wersjach (patrz mój wpis wyżej). Oczywiście wymaga to pewnego wysiłku w formułowaniu pytań, ale to samo odnosi się wszak do formułowania pytań specjalistom w danej dziedzinie. No i jasne, że mowa o wyszukiwaniu literatury w języku angielskim. Bo w jakimże innym, jeśli w biomedycynie? No pewnie miałoby (dość minimalną) wartość szukanie literatury w innych językach, ale to przede wszystim kwestia dygitalizowania w nich np. prac doktorskich (i udostępniania). No i przecież też istniejący w przyrodzie doktorant/doktor nie byłby w stanie odwiedzić „papierowych” bibliotek w różnych krajach i szukać w językach lokalnych informacji po tam zdeponowanych fizycznych rozprawach.
@galahi
„Aczkolwiek mam obawy o to rozpoznawanie kamerą,”
Teoretycznie nie wymagam wiele, po prostu rozbudowanego OCR-a, żeby umiał odczytać także ręczne napisy, na przykład white labele opisane albo ręcznie przeze mnie, albo stylizowane na takowe. Na przykład singiel Scootera „Move Your Ass” nie jest w rzeczywistości white labelem, ale okładka udaje że nim jest, więc mamy nadruk udający że jest ręcznie napisany markerem. I marzy mi się jakiś Automat, że tylko przysuwam kamerię i on mi rozpoznaje, że to Scooter „Move Your Ass”.
„A z innej beczki, rymowanki” (…) „rację / frustrację / grację”
A ktoś tu przed chwilą szydził z Jacka Cygana, to jednak poniżej nawet jego poziomu.
@Jacek Cygan kontra AI potwór z głębin
Ej no, Jacek Cygan to jest całkiem do rzeczy tekściarz, zresztą już w 1985 wystąpił z manifestem przeciw tej powodzi, w której AI z lubością się tapla. Symbol wolności natury_lucka nie jest u niego tak szlachetny jak „kamyk zielony”, ale „diamentowy kolczyk” też daje radę.
link to youtube.com [drugi komć na yt: mam winyla]
Moim zdaniem standarty radiów-esek wyznaczył chat GPT o nazwie De Mono. Jest wielkim szzęściarzem, kto go nie zna/nie pamięta.
Natomiast jeżeli chodzi o powyższy limeryk o Wojciechu, to sytuacja jest trochę podobna do sygerowanej przez @Borys Wrobel sytuacji doktoranckiej: większość polskich grafomanów-limerykanów by tak doraźnie i sprawnie nie umiała. Jednak w pojedynku z zawodowcem-limerykowcem chat GTP na razie polegnie, chyba że zadanie sformułujemy mu zdaniem tak wielokrotnie złożonym, że do autora ludzkiego wstyd by było tak się zwracać (że na końcu pierwszego wersu ma być nazwa miejscowości, bo w oryginale było Limerick, że najszlachetniej, jeśli tekst wiezie rytmicznie, za przeproszeniem komcionautów, anapest lub amfibrach, że w linijkach 1,2,5 jest mile widziana inna ilość sylab niż w linijkach 3,4, że najklasyczniej jest skumulować dramat w krótszych 3,4, by w 5 przeprowadzić jak najabsurdalniejszy zwrot akcji, no i że dopiero zaświntuszenie seksualne – acz nieobowiązkowe – czyni tu mistrza).
@karmazynowa klamerka
„Pamiętanie sugeruje bezpośredni dostęp do danej informacji, a tutaj nie ma żadnego bezpośredniego dostępu. Jest tylko wrażenie pamiętania.”
Ponownie, nie bardzo rozumiem co konkretnie miałby znaczyć ten argument. Pojęcie informacji jest dla mnie jasne – nawet mogę wyciągnąć z rękawa liczbę, która mierzy ilość informacji. Dajmy na to, zastanawiam się ile info o zmiennej x niesie zmienna y – znając rozkłady, mogę to wręcz wyliczyć w bitach. Jeśli teraz ilość tej informacji > 0, to w każdej rozsądnej dla mnie definicji pamiętania znajomość zmiennej y odpowiada zapamiętaniu pewnej informacji o zmiennej x. W tym układzie, znajomość korpusu uczącego (y) będzie odpowiadała zapamiętaniu pewnej informacji o podzbiorze tego korpusu (x) – p(x|y) będzie innym rozkładem, niż p(x).
W tym argumencie proponujesz jakieś kryterium „bezpośredniego dostępu” do informacji. Czym w ogóle miałby być „bezpośredni dostęp”? Zapisem verbatim? No to pozostaje stwierdzić, że pamiętać potrafi jedynie SSD (bezpośredni dostęp), ale na pewno nie mózg człowieka. Ten drugi, niezależnie od naszych subiektywnych wrarzeń, żadnego „bezpośredniego dostępu” do informacji nie ma. Z reguły pamiętamy nieprecyzyjnie, z czasem coraz bardziej wyrywkowo. Czasem pamiętamy „fakty”, które nie miały miejsca. Czasem “bezpośredni dostęp” kończy się na przysłowiowym czubku języka.
A równocześnie były eksperymenty, w których zmuszano LLMy do ujawniania fragmentów korpusu uczącego. Przykładowo:
link to arxiv.org
Jak dla mnie, żeby cytować fragmenty korpusu uczącego to trzeba je zapamiętać.
@Parasol
„Pojęcie informacji jest dla mnie jasne – nawet mogę wyciągnąć z rękawa liczbę, która mierzy ilość informacji.”
Tutaj chodzi mi o to, że wagi są zupełnie innym rodzajem informacji niż pierwotny zbiór, a jak mówimy o „pamiętaniu o archiwum Dantyszka”, to mówimy właśnie o pierwotnym zbiorze.
„Czym w ogóle miałby być „bezpośredni dostęp”? Zapisem verbatim?”
Nie, bezpośredni w odniesieniu do pamięci znaczy dla mnie łatwy do skojarzenia. Wracając do archiwum Dantyszka i korzystając z ludzkich analogii – jeżeli na zapytanie o kochance Kopernika nie kojarzy archiwum Dantyszka, to znaczy, że go *NIE PAMIĘTA* i trzeba mu *PRZYPOMNIEĆ* bardziej złożonym promptem. Jak człowiek o czymś pamięta, to nie trzeba mu tego dodatkowo przypominać. Jak żona pyta męża o to, czy wie jaki dziś dzień, a on powie, że nie wie, to znaczy, że *ZAPOMNIAŁ* o ich rocznicy. Wie o niej, ale zapomniał. Ja nie twierdzę, że LLM nie zawiera wiedzy, tylko że nazywanie inferencji pamiętaniem jest nadużyciem semantycznym. Im bardziej powszechna jest dana informacja z korpusu, tym lepiej inferencja aproksymuje pamięć, ale to przecież jest tylko złudzenie.
„eksperymenty, w których zmuszano LLMy do ujawniania fragmentów korpusu uczącego”
No dokładnie, można LLMy naprowadzać na konkretne fragmenty, ale to nadal jest naprowadzane. Ktoś, kto pamięta jakiś wiersz, po prostu go wyrecytuje bez naprowadzania.
Ponownie, nie próbujesz uściślić pojęć (ani „bezpośrednie dostęp”, ani „pamiętanie”). Nie odnosisz się również do faktu, że pamięć człowieka jest płynna (o czym pisałem powyżej). Pojęcie „łatwy do skojarzenia” również nic nowego nie wnosi – wręcz przeciwnie, w przypadku człowieka będzie ono korelować właśnie z powszechnością bodźca – im częściej słyszymy jakąś nazwę tym łatwiej po czasie będzie nam ją skojarzyć. Nie dość tego, gdy coś zapomnimy często tak naprawdę wciąż mamy informacje w neuronach, jedynie trudno nam ją skojarzyć (jeden hint i wszystko sobie przypominamy). Na tym nie koniec: w głowie nie mamy absolutnie żadnego pierwotnego zbioru. Gdy mówimy o pamiętaniu archiwum Dantyszka, to mówimy o zmianach różnicy potencjału w neuronach. Żadnych kartek, dysków SSD czy taśm optycznych w naszej głowie nie ma. Jeśli teraz zechcemy z pamięci owe list cytować in extenso, to prawie na pewno będą pomyłki – no chyba że, uwaga, jest to dla nas informacja “powszechna” (często je czytamy/czytaliśmy). No i na koniec: generując prompt w moim eksperymencie nie otrzymał żadnego hintu o archiwum Dantyszka a jednak je wymienił.
Reasumując, każde kolejne nieprecyzyjny kryterium “pamięci” nic nowego tu nie wnosi, a wręcz zaciera różnicę między obserwowalnymi cechami ludzkiej pamięcią i tej co w wagach llm. Z faktu, że llm jest autoregresywny bywają wysnuwane wszelakiej maści wnioski – najpewniej dla tego, że jest to fakt znany i relatywnie prosty w opisaniu. Co nie znaczy że da się nim uzasadnić choćby niewielki podzbiór domniemanych faktów o LLMach.
@ergonauta
„Ej no, Jacek Cygan to jest całkiem do rzeczy tekściarz”
Oczywiście że jest jest bez porównania lepszy niż Eska-tekściarze, ale przywołałem go jak przykład nie kiepskiego tekściarza, tylko najbardziej dochodowego polskiego tekściarza ever. Dla mnie jego teksty to takie komputerowe generatory sprzed AI, gość ma na dysku milard rymów i metafor i kompliluje z tego tekst. IMHO chat GPT robi coś podobnego, ale lepiej.
Kazałem mu kiedyś napisać tekst piosenki „Spoiler Song”, ze spojlerami nasłynniejszych plot twistów w filmach, wymieniając kilka tytułów i że może coś dodać od siebie, a każdy refren ma mieć częstochowski rym mother – father z nawiązaniem do „Star Wars” i „Psycho” Hitchcocka. Zrobiłem potem w tego z Suno szybkie wiejskie country. Efekt był całkiem niezły (chciałem wkleić tekst, ale chyba spamołap go nie lubi).
@Parasol
„gdy coś zapomnimy często tak naprawdę wciąż mamy informacje w neuronach, jedynie trudno nam ją skojarzyć (jeden hint i wszystko sobie przypominamy)”
No przecież sam właśnie podkreślasz te różnicę między pamiętaniem, a posiadaniem informacji, więc nie wiem, co chcesz, żebym Ci uściśliła. Jak coś jest nam trudno skojarzyć, to znaczy, że tego nie pamiętamy. Dla mnie to jest dość proste stwierdzenie, które nie wymaga uściślenia.
„w głowie nie mamy absolutnie żadnego pierwotnego zbioru.”
Zgadza się, ale…
„Gdy mówimy o pamiętaniu archiwum Dantyszka, to mówimy o zmianach różnicy potencjału w neuronach.”
tak i nie. Koncepcyjnie nadal odnosimy się do pierwotnego zbioru, bo mówimy o nim wprost. Ale jeżeli mówimy o pamiętaniu, to mówimy o łatwości skojarzenia – sam wyżej to potwierdzasz.
„generując prompt w moim eksperymencie nie otrzymał żadnego hintu o archiwum Dantyszka a jednak je wymienił.”
No ale właśnie o to mi chodzi – prompt systemowy był najwyraźniej lepiej skonstruowany do wbicia się w odpowiednie obszary i „przypomniał” LLMowi o tym, że ma takie informacje, ale wcześniejszy prompt użytkownika już tego nie zrobił, choć powinno to być oczywiste dla każdej osoby, która interesuje się Kopernikiem. W przypadku promptu użytkownika LLM nie pamiętał o archiwum Dantyszka, a w przypadku promptu systemowego sobie przypomniał. Naprawdę nie rozumiem, czemu upierasz się, żeby wiedzę LLMa nazywać pamięcią.
Ja bym ewentualnie powiedziała, że w ramach jednego kontekstu zachodzą w LLMie procesy pamięciopodobne, ale powiedzenie, ze LLM jako taki ma pamięć czegoś, która jest niezależna od konkretnego kontekstu wydaje mi się bardzo mocnym nadużyciem.
@karmazynowa klamerka
„Naprawdę nie rozumiem, czemu upierasz się, żeby wiedzę LLMa nazywać pamięcią.”
Może dlatego, że wszystkie LLMy i inne rodzaje AI są – przynajmniej póki co – programami komputerowymi, a w tej dziedzinie słowo 'pamięć’ ma konkretne znaczenie – urządzenie lub sposób przechowywania informacji. Ty zaś próbujesz stosować to samo określenie, którego używamy kolokwialnie do ludzkich zachowań, czyli już namierzenie konkretnej informacji i wysłanie jej do procesora.
Przy twojej definicji LLM rzeczywiście nie może niczego pamiętać ponieważ nie wykona akcji sięgnięcia do swojej pamięci (w znaczeniu informatycznym) i wyciągnięcia jakiejś informacji bez prompta. Nie jest świadomy, nie żyje, nie ma ciągłego krążenia informacji w ośrodku procesującym, więc sobie nie „przypomina”.
W znaczeniu informatycznym LLM jak najbardziej pamięta, bo ma te informacje pochowane w swoich zasobach pamięci. Ale nie sięga do nich nieproszony.
Swoją drogą, SJP definiuje pamięć następująco
1. «zdolność umysłu do przyswajania, przechowywania i odtwarzania doznanych wrażeń, przeżyć, wiadomości»
2. «wspomnienie, upamiętnienie kogoś lub czegoś»
3. «urządzenie w komputerze służące do przechowywania i udostępniania danych»
4. daw. «przytomność, świadomość»
LLMy mają 3, nie mają 4, dyskusyjne czy mają 2 (mają zapisy upamiętniające, ale czy można to podciągnąć pod wspomnienie?), oraz dyskusyjne czy mają 1 bo nie mają umysłu i nie doznały wrażeń, ale potrafią przyswajać, przechowywać i odtwarzać informacje.
Jeżeli oczekujemy od AI żeby funkcjonowała jak człowiek to to się nie zdarzy, bo z założenia to nie jest symulacja człowieka. Nie chcemy by AI miały świadomość, mają przetwarzać informacje i wykonywać zadania. Ale gdy symulują kontakt człowieka z innym umysłem, to chcemy żeby jednak sprawiały wrażenie, że pamiętają.
Również za SJP definicja pamiętania
1. «mieć zdolność do przyswajania i przypominania sobie doznanych wrażeń, przeżyć, wiadomości»
2. «troszczyć się o kogoś, o coś, myśleć o kimś, o czymś»
3. «mieć świadomość, że trzeba coś zrobić, nie zaniedbać czegoś»
4. «mieć do kogoś żal»
5. «o rzeczach: pochodzić z dawnych czasów»
LLMy części z tego nie spełnią, właśnie dlatego że nie są – i nigdy nie mają być – świadome, żywe i długotrwale działające w trybie samodzielnego przetwarzania informacji bez zadanych wytycznych.
Pamiętanie to po prostu nie to samo co sięganie do pamięci, można mieć wiedzę w pamięci i jej nie pamiętać. Niektóre słowa definiujące pojęcia są dla nas mocno związane z budową organizmów żywych i posiadaną przez nas samych świadomością.
@Piotr Kapis
„Może dlatego, że wszystkie LLMy i inne rodzaje AI są – przynajmniej póki co – programami komputerowymi, a w tej dziedzinie słowo 'pamięć’ ma konkretne znaczenie – urządzenie lub sposób przechowywania informacji”
No nie bardzo, jak przystawisz LLM do tradycyjnej bazy danych, to on ją przypomina jeszcze mniej niż naszą koncepcję pamięci. Kolega Parasol też przecież odnosi się do ludzkiej pamięci. Ja się ogólnie zgadzam, że mamy w przypadku LLMów do czynienia z jakimś rodzajem symulakrum pamięci, ale nie zgadzam się z tym, żeby twierdzić, że LLM jako taki cokolwiek pamięta. Może sobie przypomnieć w ramach konkretnej sesji, ale w ramach innej sesji już nie musi, ergo mówienie, że LLM jako taki o czymś pamięta wydaje mi się nie na miejscu.
„Ty zaś próbujesz stosować to samo określenie, którego używamy kolokwialnie do ludzkich zachowań”
No przecież nie tylko ja. Cała rozmowa wzięła się stąd, że kol. bokononowicz nawiązał do ludzkich zachowań i wrzucił całkiem eleganckie porównanie do żartów o sporcie jako odpowiednim kontekście do przypomnienia sobie, kim jest Krychowiak, a przypadek braku skojarzenia nazwał niepamięcią, na co kol. Parasol odparł, że przecież nie może nie pamiętać, jak w innym prompcie pamięta. I z tego co widzę kol. Parasol również odnosi się do ludzkiej pamięci.
„W znaczeniu informatycznym LLM jak najbardziej pamięta, bo ma te informacje pochowane w swoich zasobach pamięci.”
Jejku, no właśnie nie. Nie ma tych informacji wcale. Ma dostęp do reprezentacji, dzięki którym może stochastycznie je zrekonstruować. To właśnie bardziej przypomina ludzki mózg niż bazę danych (choć strasznie nie lubię tego porównania).
„No przecież sam właśnie podkreślasz te różnicę między pamiętaniem, a posiadaniem informacji, więc nie wiem, co chcesz, żebym Ci uściśliła. Jak coś jest nam trudno skojarzyć, to znaczy, że tego nie pamiętamy. Dla mnie to jest dość proste stwierdzenie, które nie wymaga uściślenia.”
Z perspektywy pamięć llm vs człowiek nie ma różnicy: w obu wypadkach informacja może być zapisana (w wagach lub synapsach) i w obu wypadkach mechanizm dostępu może (ale nie musi) ją pominąć. W obu wypadkach hint może spowodować „przypomnienie”
„tak i nie. Koncepcyjnie nadal odnosimy się do pierwotnego zbioru, bo mówimy o nim wprost. Ale jeżeli mówimy o pamiętaniu, to mówimy o łatwości skojarzenia – sam wyżej to potwierdzasz.”
Nie, tu nie ma żadnego tak i nie 🙂 W głowie żadnego pierwotnego zbioru nie ma. Kolejne niejasne kryterium „mówimy o nim wprost” ponownie nic nie wnosi, a wręcz zaciera różnicę: jeśli nie mamy kartek przed oczami, to mówimy jedynie o naszej pamięci tego zbioru. Wówczas nasze próby cytowania będą obarczone błędami – nie będą wiernym/bezpośrednim/wprost/inne_niejasne_kryterium dostępem do pierwotnego zbioru. Aby ograniczyć liczbę naszych pomyłek, musielibyśmy uczyć się tego zbioru, uwaga, na pamięć, poprzez wielokrotne powtarzanie, jak normalnie trenowanie sieci neuronowej.
„No ale właśnie o to mi chodzi – prompt systemowy był najwyraźniej lepiej skonstruowany do wbicia się w odpowiednie obszary i „przypomniał” LLMowi o tym, że ma takie informacje”
I ten promotor wymieniał archiwum Dantyszka, mimo iż zapytanie, które go stworzyło nie miało żadnego hintu o tym archiwum.
@Parasol
„Z perspektywy pamięć llm vs człowiek nie ma różnicy: w obu wypadkach informacja może być zapisana (w wagach lub synapsach) i w obu wypadkach mechanizm dostępu może (ale nie musi) ją pominąć. W obu wypadkach hint może spowodować „przypomnienie””
No ale widzisz – znowu mówisz o zapisie informacji, a nie o pamiętaniu. Ja nie twierdzę, że w LLMie nie ma informacji, tylko że stwierdzenie, że LLM czegoś nie pamięta (w ramach danego kontekstu), od czego zaczęła się ta rozmowa, jest zasadne.
„Nie, tu nie ma żadnego tak i nie W głowie żadnego pierwotnego zbioru nie ma.”
To odnosiło się do drugiej części zdania, z pierwotnym zbiorem się zgadzam przecież
„Kolejne niejasne kryterium „mówimy o nim wprost” ponownie nic nie wnosi, a wręcz zaciera różnicę: jeśli nie mamy kartek przed oczami, to mówimy jedynie o naszej pamięci tego zbioru.”
Aaa, czekaj, bo ja cały czas mówię o pamiętaniu *O* archiwum Dantyszka. Nie o pamiętaniu jego treści, tylko o pamiętaniu o tym, że coś takiego w ogóle istnieje. I do tego mówię o języku, tzn. o tym, że jak mówimy o „archiwum Dantyszka”, to wypowiadamy słowa „archiwum Dantyszka” (albo je spisujemy) i mamy na myśli koncepcję archiwum Dantyszka.
„I ten promotor wymieniał archiwum Dantyszka, mimo iż zapytanie, które go stworzyło nie miało żadnego hintu o tym archiwum.”
No a w innym prompcie nie pamiętał, że istnieje, czyli nie można powiedzieć, że LLM ogólnie pamięta o czymś. Pamięta w pewnych warunkach i w danym kontekście i o to chodziło przecież bokononowiczowi.
@LLL
Być może w swej poprzedniej wypowiedzi za bardzo się skupiłem na grze słownej opartej o frazę „rozumienie źródeł”, i mój abstrakcyjny przykład skojarzył się z czymś, czym chwalą się Anthropic lub inni im podobni. A jednak chodzi mi coś wykraczającego poza znalezienie źródeł biblioteki w internecie, albo uruchomienie narzędzia dezasemblującego.
Tamten przykład przyszedł mi do głowy na marginesie tworzenia modów do Skyrima, gdzie w pewnych sytuacjach pomiędzy jedną instrukcją a drugą muszę zrobić delay, taki o ułamek sekundy, bez tego delaya się glitchuje. Oczywiście im mniejszy delay, tym bardziej płynnie wszystko chodzi. Fajnie byłoby więc wiedzieć, ile minimalnie ten delay powinien wynosić. A zwłaszcza jeśli interesuje nas poprawne działanie nie tylko na własnym kompie – rozumieć, czy ta minimalna długość opóźnienia jest stałą wartością, czy może powiązana z częstością FPS, czy też tak naprawdę jest jeszcze jakoś inaczej.
Tak że w tym roku jeszcze nie. Przykład ten opowiadam wszystkim, którzy wieszczą nadejście sztucznointeligetnego superprogramisty w 2027, tak żeby wiedzieli z czym się przyjdzie zmierzyć.
@karmazynowa klamerka @Parasol
„Jejku, no właśnie nie. Nie ma tych informacji wcale. Ma dostęp do reprezentacji, dzięki którym może stochastycznie je zrekonstruować. To właśnie bardziej przypomina ludzki mózg niż bazę danych (choć strasznie nie lubię tego porównania).”
Ale to nie jest istotne w jakiej postaci ma te informacje. Jest w stanie je odczytać/odtworzyć = ma do nich dostęp.
Nikt nie mówi, że ma mieć tę wiedzę w bazie danych, może ją mieć w postaci skompresowanej. Ludzie się na tym wykładają bo to mało intuicyjne, ale kodowanie/szyfrowanie/algorytmy kompresji nadal pozwalają przechowywać informację i ją odczytywać (o ile wie się jak). QR code to też informacja, tak samo jak nasze litery i cyfry czy koncepcja słów i liczb. Nawet mamy takie zapisy, które mało kto rozumie bo trzeba do nich konkretnej wiedzy – mnóstwo osób nie rozczyta tego co jakiś matematyk zapisze na tablicy bo już pojęcie całki jest im obce.
Owszem, to jest bliższe temu jak działa ludzki mózg. Nie zapisujemy informacji wprost tylko przez skojarzenia. Ale nadal ją mamy.
Jeśli ja przeczytam książkę to też przecież nie pamiętam każdego jednego słowa (chyba że ktoś ma pamięć absolutną i rzeczywiście potrafi, ale to są wyjątki, nie norma). Pamiętam pewne przybliżenie książki, mało precyzyjne. I jeśli dobrze rozumiem twoje argumenty to pamiętam tylko wtedy gdy o tej książce myślę albo gdy sobie o niej przypominam sam. Bo jeśli przestanę i zrobię to dopiero gdy ktoś mnie zapyta „Hej, pamiętasz o takiej książce…” to będę sięgał do pamięci na podstawie zewnętrznego prompta.
Do opisania naszych codziennych zachowań używamy często pojęć intuicyjnych, nieprecyzyjnych, czasami sami nie zdając sobie sprawy z tego jak je definiujemy (bo nie definiujemy tylko „czujemy”). Z punktu widzenia teorii informacji gdy sobie coś zapisujemy w zeszycie to też wrzucamy to do pamięci. Zewnętrznej, ale pamięci. Ale w przypadku człowieka faktu że coś ma zapisane w notatkach nie nazwiemy pamiętaniem, bo dla człowieka liczy się to co wewnętrzne.
Ale ten proces wcale nie jest aż tak odmienny. Komputery mają różne rodzaje pamięci, szybsze i wolniejsze, różnego poziomu. Jeżeli za pamiętanie uznamy wprowadzenie informacji z pamięci niższego poziomu do operacyjnej to LLM nie będzie tego robił bez zewnętrznego promptu bo takie jest założenie całego systemu.
Warto rozróżniać pamiętanie i pamięć – po polsku to nieco kłopotliwe, bo te słowa są spokrewnione. A trzeba je właśnie potraktować osobno. Pamięć to przechowywanie wiedzy/informacji, pamiętanie to przywołanie z pamięci do świadomości/procesowania. A z koncepcją pamiętania jest związane pojęcie przypominania sobie – przepływu informacji z pamięci trwałej do ośrodka procesowania.
„Ja nie twierdzę, że w LLMie nie ma informacji, tylko że stwierdzenie, że LLM czegoś nie pamięta (w ramach danego kontekstu), od czego zaczęła się ta rozmowa, jest zasadne.”
Jeżeli sobie w tym kontekście nie skojarzy tokenów i nie wyciągnie takiej informacji z olbrzymiego zbioru indeksów do tego co – z braku lepszego słowa – nazwiemy częścią operacyjną to tak, jak najbardziej zasadnym jest powiedzieć, że nie pamięta, zgadzam się. Mimo, że ma tę informację w pamięci (niższego rzędu). Ale nie pamięta bo akurat z niej nie skorzystał, czyli nie przywołał jej do obszaru procesowania.
Moim zdaniem to taka sama sytuacja co w szkole, gdy uczeń może wiedzieć coś, ale akurat nie pamiętać i nauczyciel go musi dopiero naprowadzić. Bo stres czy sam sposób działania ludzkiego mózgu i tego co uznaje za ważne sprawia, że dopiero odpowiedni bodziec wywoła skojarzenia. My też czasami potrzebujemy zewnętrznych promptów, żeby sobie przypomnieć.
„No a w innym prompcie nie pamiętał, że istnieje, czyli nie można powiedzieć, że LLM ogólnie pamięta o czymś. Pamięta w pewnych warunkach i w danym kontekście i o to chodziło przecież bokononowiczowi.”
Z tym się mogę zgodzić. Jeśli uznajemy że pamiętanie to już procesowanie informacji i węższe pojęcie niż „ma zapisane w pamięci” (bo wymaga jeszcze sięgniecia do niej, odczytu i przesłania informacji do kontekstu) to tak, LLM „pamięta” tylko w pewnych warunkach. Może pamiętać, może nie.
„Parasol odparł, że przecież nie może nie pamiętać, jak w innym prompcie pamięta.” Tutaj zgadzam się z tobą, z powyżej wymienionych powodów. Kontekst jest istotny, samo procesowanie informacji jest istotne. Fakt, że ma się ją w indeksach zmienia tyle, czy da się po nią sięgnąć czy nie, ale jeśli LLM jej nie tknie w konkretnej sytuacji to jej nie pamięta (chociaż może sobie przypomnieć).
Pamiętajmy (pun intended), że sam fakt „nie pamiętania” nie oznacza, że informacja nie istnieje w pamięci i została utracona bezpowrotnie (bez sięgnięcia do innych źródeł). Może być niedostępna tylko tymczasowo, bo akurat nie potrafimy odpalić odpowiednich skojarzeń i wydobyć ją z niższego poziomu do wyższego. Wtedy zewnętrzne bodźce potrafią pomóc, dla LLMa to będzie inny prompt i zmiana kontekstu, dla człowieka jakieś pomocnicze pytania czy sięganie po inne doświadczenia, bo ludzie działają ciągle, nie w sesjach.
@Piotr Kapis
„Przy twojej definicji LLM rzeczywiście nie może niczego pamiętać ponieważ nie wykona akcji sięgnięcia do swojej pamięci (w znaczeniu informatycznym) i wyciągnięcia jakiejś informacji bez prompta.”
Podobie jak procesor nie wykona akcji sięgnięcia do pamięci bez instrukcji programu. Podobnie jak człowiek (w stanie świadomości) nie wykona akcji sięgnięcia do pamięci bez bodźca.
„Nie jest świadomy, nie żyje, nie ma ciągłego krążenia informacji w ośrodku procesującym”
Czym jest „ciągłe krążenie informacji w ośrodku procesującym człowieka”? Czy z faktu, że baza danych cyklicznie kopiuje, indeksuje, porządkuje zasoby wynika, że można jej przypisać cechę pamiętania w sposób bardziej semantycznie prawidłowy, niż mózgowi człowieka?
@karmazynowa klamerka
„No ale widzisz – znowu mówisz o zapisie informacji, a nie o pamiętaniu. Ja nie twierdzę, że w LLMie nie ma informacji, tylko że stwierdzenie, że LLM czegoś nie pamięta (w ramach danego kontekstu), od czego zaczęła się ta rozmowa, jest zasadne.”
Podobnie jak zasadne jest twierdzenie, że człowiek czegoś nie pamięta i potrzebuje hitu. Innymi słowy: kolejne niejasne kryterium mające różnicować pamięć człowieka od pamięci LLM okazuje się kryterium pustym.
„Aaa, czekaj, bo ja cały czas mówię o pamiętaniu *O* archiwum Dantyszka. Nie o pamiętaniu jego treści, tylko o pamiętaniu o tym, że coś takiego w ogóle istnieje.”
Nie, dyskusja zaczęła się od tezy jakoby, cytuję: „LLM nie pamięta *NICZEGO*”. Samo pamiętanie o archiwum Dantyszka również nie jest kryterium różnicującym pamięć LLM od pamięci człowieka – jeżeli zetkniemy się z pojęciem archiwum Dantyszka incydentalnie, to jest możliwe, że nie skojarzymy go w kontekście rozmowy o związku Kopernika z kobietą. Jeśli z pojęciem tym zetknęliśmy się wielokrotnie, lub niedawno to jest prawdopodobne, że skojarzymy. Zacytuję tu fragment Twojego argumentu:
„Po prostu chodzi o to, że jak dana informacja jest bardziej powszechna i częściej pojawia się w pierwotnym zbiorze danym, to LLM ma większą szansę na nią natrafić bez naprowadzania w odpowiednie okolice”
Zamieniamy „LLM” na „człowiek”, „informację” na „archiwum Dantyszka” i mamy dokładnie to o czym piszę.
@Piotr Kapis
„Warto rozróżniać pamiętanie i pamięć – po polsku to nieco kłopotliwe, bo te słowa są spokrewnione. A trzeba je właśnie potraktować osobno. Pamięć to przechowywanie wiedzy/informacji, pamiętanie to przywołanie z pamięci do świadomości/procesowania. A z koncepcją pamiętania jest związane pojęcie przypominania sobie – przepływu informacji z pamięci trwałej do ośrodka procesowania.”
O to to! Dokładnie o to mi chodziło, ale nie byłam w stanie tego tak skonkretyzować.
@Piotr Kapis
„Warto rozróżniać pamiętanie i pamięć – po polsku to nieco kłopotliwe, bo te słowa są spokrewnione. A trzeba je właśnie potraktować osobno. Pamięć to przechowywanie wiedzy/informacji, pamiętanie to przywołanie z pamięci do świadomości/procesowania. A z koncepcją pamiętania jest związane pojęcie przypominania sobie – przepływu informacji z pamięci trwałej do ośrodka procesowania.”
Jeśli jednak wrócimy do pierwotnego źródła tej dyskusji, domniemanego niepamiętania przez LLM niczego, to powyższe rozróżnienie okaże się nic istotnego nie wnosić. Znamiona procesów przechowywania, przywoływania i przypominania można zaobserwować tak w odpowiedziach LLM jak w odpowiedziach człowieka. Podobieństwo jest tu dalece większe, niż w innych aspektach LLMów (jak domniemane „rozumowanie”) – do tego stopnia, że pamięć zbioru faktów ćwiczymy przez wielokrotne przetwarzanie, niczym sieć neuronowa wielokrotnie przetwarzająca zbiór uczący.
Oczywiście można w dyskusji uciec w argument ad Świadomość – jest to dość typowe w dyskusjach o LLMach. Pozwala wywodzić dowolną tezę w dowolnym kierunku – bo oczywiście jak ognia unikamy jakichkolwiek prób sprecyzowania pojęcia świadomość. Gdyby jednak zechcieć, jak ten Sąd Najwyższy w stanach, zbudować operacyjny test, który w przyszłość pozwoli sądom niżesz instancji rozstrzygać, czy, dajmy na to, fair use, czy nie, to natychmiast okaże się, że słabo zdefiniowane argumenty ze świadomości już nie wystarczają.
Piotr Kapis
„Warto rozróżniać pamiętanie i pamięć – po polsku to nieco kłopotliwe, bo te słowa są spokrewnione. A trzeba je właśnie potraktować osobno. Pamięć to przechowywanie wiedzy/informacji, pamiętanie to przywołanie z pamięci do świadomości/procesowania.”
Dodam, że pamiętanie też dzieli się na:
rozpoznanie – skądś znam tego gościa, widziałem już ten zamek
przywołanie – Heniek z marketingu, Hohenschwangau
(może to się nazywa inaczej, mam terminologię z bardzo starej książki psychologicznej)
@Parasol
„Podobie jak procesor nie wykona akcji sięgnięcia do pamięci bez instrukcji programu. Podobnie jak człowiek (w stanie świadomości) nie wykona akcji sięgnięcia do pamięci bez bodźca.
Czym jest „ciągłe krążenie informacji w ośrodku procesującym człowieka”? Czy z faktu, że baza danych cyklicznie kopiuje, indeksuje, porządkuje zasoby wynika, że można jej przypisać cechę pamiętania w sposób bardziej semantycznie prawidłowy, niż mózgowi człowieka?”
Przepraszam, napisałem sporą odpowiedź a potem serwer wyrzucił error 500 i wszystko poszło. A ja nie mam siły pisać ponownie tego wszystkiego (bo nie pamiętam co sam napisałem! Przynajmniej nie słowo w słowo, chociaż potrafię odtworzyć swój tok rozumowania!). Spróbuję, ale przepraszam za skróty albo jeśli coś będzie niejasne. Może mi się wydawać, że napisałem to lepiej, bo w poprzedniej wersji tak było, a teraz odtwarzam to ponownie.
Moim zdaniem kluczowa różnica jest taka, że człowiek pracuje w stanie ciągłym a komputery w zadaniowym. To trochę bardziej skomplikowane, ale z grubsza OS można zahibernować albo całkowicie wyłączyć i włączyć, w samym OS działają różne procesy które zaczynają się i zamykają.
Nie ma sensu mówienie o tym czy baza danych pamięta. Baza danych jest pamięcią. Indeksowanie i reszta nie wykona się jeśli nie zostaną odpalone procesy wykonywane przez OS. Bardziej zasadnym byłoby pytanie czy OS pamięta w trakcie wykonywania zadania indeksowania. Na co ja powiem tak: Nie jest to ważne dopóki nie ma świadomości która byłaby tym zainteresowana. Taki efekt obserwatora w praktyce, ponieważ komputer nie ma świadomości. Ale jeśli odpalimy śledzenie tego co się dzieje na rejestrach i w pamięci operacyjnej to zobaczymy czy OS przywołuje informacje z bazy danych podczas indeksowania czy nie. Ale ponieważ normalnie taki proces nie ma żadnego outputu obserwowalnego przez zewnętrzną świadomość człowieka-użytkownika, to takie pytania są po prostu nieistotne.
Dodatkowo warto wziąć pod uwagę, że ludzie często korzystają z pojęć nie słownikowo tylko „na czuja” i przywiązują olbrzymią wagę do tego co uznają za „ja”, czyli świadomości. Tymczasem ludzkie mózgi i w ogóle ciała działają na paru różnych poziomach, świadomość to tylko jeden z nich
Pewnie przyjdzie zaraz jakiś biolog i powie, że to wszystko dużo bardziej skomplikowane i będzie miał rację. Oczywiście, że upraszczam tutaj, bo nie prowadzę badań nad człowiekiem tylko prostą dyskusję na blogu i szukam analogii między człowiekiem a systemem komputerowym.
W każdym razie nasze ciała też sięgają do pamięci w sposób o którym nie powiemy „pamiętam”. Czasami powiemy np. że „ciało pamięta”, ale nie „ja”, jakby ja-człowiek a moje ciało to były dwie rozdzielne rzeczy. Właśnie dlatego, że świadomość jest dla nas tak ważna. Wiemy przecież, że ludzie mają przetwarzanie informacji na różnych poziomach, również podświadomych. Mamy układy które w ogóle nie poddają się naszej świadomości, możemy wstrzymać oddech, ale nie wstrzymamy myślą trawienia czy akcji serca. Mamy traumy i fazy REM z których „pamiętamy” tylko część. Czy człowiek który miał sen (mierzalne, potrafimy identyfikować fazę REM sprawdzając aktywność mózgu) ale nie pamięta że go śnił, pamiętał w trakcie? Jak dla mnie kluczowe jest właśnie to, czy traktujemy nieświadomą część jako siebie czy nie. Te wszystkie „gut feeling”, pamięć mięśniowa, wyrabianie nawyków to działanie gdzieś na pograniczu świadomości i nie, wrzucanie procesów poza świadome działanie, ale ze świadomością obserwującą ich wyniki.
Jest nam znany taki proces, że kiedy czegoś nie możemy sobie przypomnieć albo skojarzyć to żeby zająć się czymś innym. Świadomość skupi się na prostych, powtarzalnych, może nawet nudnych czynnościach jak sprzątanie albo łowienie ryb, ale gdzieś w tle lecą procesy skojarzeń i nagle przerzucają do świadomości końcowe ustalenia.
Człowiek jest systemem mocno złożonym, działającym na wielu poziomach i jako jednostki nie zdajemy sobie sprawy z tego ile w nas zachodzi rzeczy których nie zauważamy świadomością. Jako ludzkość wiemy więcej bo badania naukowe to wykazały, ale pojedynczy człowiek często nie ma tej wiedzy albo nie przekłada jej na siebie.
Swoją drogą sen to fantastyczny przykład na to, jak ludzie halucynują. Sięgamy do swoich wspomnień, świadomość może dostać wyniki i wtedy one często są dziwne, wiemy że rzeczy się nie zgadzają z innymi wspomnieniami. To chyba ta działalność ludzkiego mózgu (naturalna – bo są też wspomagane zewnętrznie jak tripy po narkotykach albo w malignie) gdzie sami widzimy jak bardzo potrafimy zmyślać i potem zweryfikować to innymi procesami wewnętrznymi.
@Parasol
„Jeśli jednak wrócimy do pierwotnego źródła tej dyskusji, domniemanego niepamiętania przez LLM niczego”
Nie no, pierwotnym źródłem było to, że bokononowicz napisał, że LLM nie przywołuje jakichś faktów, bo ich nie pamięta bez odpowiedniego prompta, na co Ty napisałeś, że przecież pamięta, bo przy konkretnym prompcie przywołuje, na co ja zaoponowałam, bo moim zdaniem opis bokononowicza był w punkt, a Twoje użycie słowa „pamiętanie” mi totalnie zgrzytało, tylko ja wtedy popełniłam ten sam błąd, co Ty i zlałam ze sobą pamięć i pamiętanie, tylko zrobiłam to na odwrót – ja używałam słowa „pamięć” w znaczeniu pamiętania, a Ty używałeś słowa „pamiętanie” w znaczeniu pamięci.
Mówiąc, że LLM niczego nie pamięta miałam na myśli to, że potrzebny jest odpowiedni kontekst, żeby uruchomić proces przypominania, czyli dokładnie to, o czym pisał bokononowicz, a wobec czego oponowałeś.
@Parasol
„Oczywiście można w dyskusji uciec w argument ad Świadomość – jest to dość typowe w dyskusjach o LLMach. Pozwala wywodzić dowolną tezę w dowolnym kierunku – bo oczywiście jak ognia unikamy jakichkolwiek prób sprecyzowania pojęcia świadomość.”
Przepraszam za post pod postem, ten się pojawił później a wydaje mi się, że trafiasz tutaj w istotną kwestię. Coś o czym pisałem, ale na co nie kładłem aż takiego nacisku – my się generalnie rozbijamy o definicje bo stosujemy często podejście na czucie. Wiemy intuicyjnie (albo wydaje nam się, że wiemy) jak coś działa albo czym jest, ale nie potrafimy tego zdefiniować konkretnie. I nawet są argumenty czemu próby precyzyjnego definiowania mogą być skazane na porażkę, że przypomnę tylko Diogenesa.
Niestety, my sami nie wiemy jak działamy ani czym są do końca pewne procesy człowieka. Czujemy je, doświadczamy ich, wydaje nam się, że je ogarniamy, ale nie rozumiemy ich całkowicie. Nie grokujemy (to było całkiem fajne słowo póki Musk nie zaczął go zawłaszczać).
Ludzie się nadal kłócą czy zwierzęta mają świadomość czy nie, a jeśli tak to które. Rośliny rozumiemy jeszcze gorzej, musimy dopiero interpretować eksperymenty. I regularnie kruszyć mur starych podejść, zastępować starą wiedzę nową co jest bardzo mozolne.
@rpyzel
Ad rodzaje pamiętania – łaziło mi po głowie to, że są różne poziomy szczegółowości w pamiętaniu, ale ja mam tendencję do rozpisywania się, nie chcę żeby ktoś mnie brał za Awala, staram się miejscami trochę ograniczać. Masz, oczywiście, rację i są to tematy dużo bardziej skomplikowane o których można się rozpisywać.
Żeby nie przedłużać dyskusji, wracamy ponownie do argumentu ze świadomości. W zasadzie cały wywód można zredukować do:
„Nie jest to ważne dopóki nie ma świadomości która byłaby tym zainteresowana.”
Bo już wchodząc w znamiona, albo dostajemy argumenty nie istotne (ok, człowieka nie można zahibernować – co mówi nam to o pamięci człowieka vs. pamięć LLM?), albo nieróżnicujące (np. kojarzenie na czuja: no jak LMM, który na czuja proponuje błędny dowód twierdzenia – brzmi znajomo?) Argument ze świadomości ma tą wadę, że mogę z niego wywodzić wszystko w każdą stroną. A wynika to z istotnego błędu w tym rozumowania: braku jakiejkolwiek precyzyjnej definicji świadomości. Bez operacyjnej definicji, możemy wywodzić w zasadzie dowolne wnioski.
Chyba, że przegapiłem gdzie dobra sprecyzowane, różnicujące kryterium – na razie takiego nie widzę.
@Parasol
„Chyba, że przegapiłem gdzie dobra sprecyzowane, różnicujące kryterium – na razie takiego nie widzę.”
Ja wcześniej na to nie zwracałam uwagi, ale myślisz zdaje się, że ja chcę różnicować między procesami zachodzącymi w LLMach a procesami zachodzącymi w mózgu? To chyba też jakieś nieporozumienie. Mój argument jest czysto językowy i sprowadza się po prostu do tego, co napisał Piotr Kapis o odróżnianiu pamięci od pamiętania – że jedno to zapis informacji, a drugie to proces jej przetwarzania.
Znaczy no, swoją drogą, nie lubię używania ludzkich terminów do opisywania działania LLMów, ale nie dlatego, że uważam, że są jakoś kategorycznie różne, tylko dlatego, że są właśnie takie vibe’owe. Nie wiemy przecież, tak naprawdę, jak działa człowiek. Dla mnie w LLMie zachodzą procesy pamięciopodobne, symulakrum pamiętania, co nie znaczy, że te dwie rzeczy są nieporównywalne. Są, tylko mówiąc, że to jest faktycznie „pamiętanie”, od razu zrównujemy je ze sobą, choć przecież widzimy tylko powierzchowne podobieństwa.
@Parasol
Ja się jak najbardziej zgodzę, że całą tę dyskusję o tym czy LLM pamięta czy nie trzeba sprowadzić do ustalenia definicji, co to znaczy „pamięta” i kto jest podmiotem tej akcji.
Przy czym dałoby się wykluczyć z tego świadomość i oprzeć np. o pracę procesora danego podmiotu oraz korzystanie z różnych poziomów pamięci. Tylko wtedy wchodzimy w sytuację w której 'pamiętanie’ będzie oznaczało coś odmiennego niż to co ludzie intuicyjnie tak określają, bo np. procesowanie informacji w podświadomości (np. z powodu traumy albo instynktowne) również będzie pod to podpadać. Jeśli więc pojawia się ogień a ja cofam rękę to dlatego, że mój mózg pamięta że ogień parzy, nawet jeśli świadomość nie musi tej informacji dostać zanim podjęta zostaje decyzja.
Ale że ludzie lubią angażować świadomość bo to ją kojarzą z „ja”, to takie definicje będą się rozjeżdżać z intuicyjnymi ludzkimi nie do końca sprecyzowanymi definicjami i kolokwialnym znaczeniem słów.
Dyskusja „czy LLMy mają świadomość” jest oparta na błędnym założeniu, że „ma świadomość” jest czymś co można empirycznie zweryfikować. Nie można. To my decydujemy, komu przyznamy taki status a komu nie, będąc świadomi konsekwencji takiej decyzji (przyznanie praw przysługujących istocie świadomej). Uznanie LLMów/AI/krów/małp/kruków za posiadających świadomość albo nie będzie decyzją polityczną, a nie li tylko uaktualnieniem wiedzy o świecie.
@Piotr Kapis
Ja nawet nie domagam się definicji pamięci. Wystarczy mi operacyjny test, jak w tej analogii do testu konstruowanego przez Sąd Najwyższy dla rozstrzygania wątpliwości semantycznych.
@rw
„Dyskusja „czy LLMy mają świadomość” jest oparta na błędnym założeniu, że „ma świadomość” jest czymś co można empirycznie zweryfikować. Nie można.”
Oraz, IMHO, na traktowaniu świadomości jako własności binarnej, co stoi w sprzeczności z tym co wiemy o naturalnych biologicznych, ewolucyjnych procesach.
@karmazynowa klamerka
„Mój argument jest czysto językowy i sprowadza się po prostu do tego, co napisał Piotr Kapis o odróżnianiu pamięci od pamiętania – że jedno to zapis informacji, a drugie to proces jej przetwarzania.”
Ale nawet to rozróżnienie nie mówi nam nic o pojęciu „pamięta” w odniesieniu do LLM – proba zbudowania na tym rozróżnieniu wniosku rozbija się po argument ze świadomości.
> rozbija się po argument ze świadomości.
Nie rozbija się. W moim przykładzie z najlepszego spośród deep research RAG firmy FutureHouse (obecnie przechodzi upgrade) potrafi ZACYTOWAĆ list i POMINĄĆ cytację następującą TUŻ PO cytowanym fragmencie, bo nie wie co to jest referencja. Nie ma żadnego argumentu ze świadomości bo nie ma żadnej świadomości.
> Oraz, IMHO, na traktowaniu świadomości jako własności binarnej, co stoi w sprzeczności z tym co wiemy o naturalnych biologicznych, ewolucyjnych procesach.
To znaczy jakich? Samoświadomości bakterii w gradiencie pożywienia?
Werner Herzog w „Spotkaniach na krańcach świata” prowokacyjnie pyta czemu nie obdażamy inteligencją ameb.
To właśnie robią pretensjonalni AI bros. Na czele labu Google Paradigms of Intelligence arystokrata imienia dwóch domów (czemu to zawsze jest ktoś taki) Blaise Aguera y Arcas definiuje inteligencję przez BRAINFUCK.
Uczcie się asemblera, najnowsza definicja inteligencji właśnie dropnęła. Bo nie będziecie umieli gdakać przekazem dnia, zostaniecie zacofani przy okienku z książkami gdy tym co się załapali na bieżączkę będzie odjeżdżać peron.
@”czy LLMy mają świadomość” / Kopernik & Dantyszek
Na szczęście LLM-y nie mają świadomości (czymkolwiek ona jest). Czyli nie są w stanie czynić takiego zła, jak człowiek. Czyli paskudny bladawiec, np. Eric Dubay, autor książki „Płaska Ziemia. Ukrywana prawda”, w której odkrywa prawdę także o Koperniku:
„Kopernik studiował filozofię i medycynę w Krakowie. Przez ostatnie dekady swego życia popadł w obsesję na temat idei Pitagorasa i kiedy po raz pierwszy zaprezentował swoją heliocentryczną doktrynę świata, została potępiona jako heretycka na tyle, by zamknąć go w więzieniu, a uwolniono go dopiero gdy zrzekł się swych opinii.”
Jako ludź krytykujący maszynę poczułem się jakbym jej wytykał drzazgę w oku, a belki we własnym nie widział.
@❡
„Nie rozbija się. W moim przykładzie z najlepszego spośród deep research RAG firmy FutureHouse (obecnie przechodzi upgrade) potrafi ZACYTOWAĆ list i POMINĄĆ cytację następującą TUŻ PO cytowanym fragmencie, bo nie wie co to jest referencja.”
Zapewniam Cię, że człowiek też to potrafi, jak również może nie wiedzieć co to referencja. Ba, może nie umieć czytać. Co mówi nam to o pojęciu pamięci?
„Nie ma żadnego argumentu ze świadomości bo nie ma żadnej świadomości.”
Ja bym poszedł dalej – tu w ogóle nie ma argumentu na temat.
@Parasol
„Ale nawet to rozróżnienie nie mówi nam nic o pojęciu „pamięta” w odniesieniu do LLM – proba zbudowania na tym rozróżnieniu wniosku rozbija się po argument ze świadomości.”
Nie no, tu znów wchodzimy w jakieś dziwne meandry filozoficzne. Rdzeń mojego argumentu nie ma nic wspólnego z tym, jak biologicznie działa mechanizm pamięci czy pamiętania. Odnoszę się do pamiętania w znaczeniu potocznym i psychologicznym, w szczególności, że pierwotny wpis kol. bokononowicza był właśnie bardzo potoczny. W moim argumencie nie ma znaczenia, czym jest pamięć i pamiętanie, ważne jest tylko to, że jedno to istnienie czegoś w jakichś zasobach, a drugie to proces wydobywania tego czegoś. Jak to faktycznie funkcjonuje nie ma dla mnie ani dla mojego argumentu żadnego znaczenia. Może być świadomość, może jej nie być, chodzi mi o to, że użyłeś słowa odnoszącego się najczęściej do procesu na opisanie istnienia.
@❡
„To znaczy jakich?”
To znaczy, że biologiczne cechy i funkcje organów rozwijają się stopniowo, i tak jak nie da się wskazać jednego momentu w którym płetwa staje się łapą, a łapa skrzydłem, tak samo przejście między nieświadomym kłębkiem neuronów a świadomym umysłem jest płynne. I definicja, jeśli powstanie, powinna to uwzględniać.
@karmazynowa klamerka
„W moim argumencie nie ma znaczenia, czym jest pamięć i pamiętanie, ważne jest tylko to, że jedno to istnienie czegoś w jakichś zasobach, a drugie to proces wydobywania tego czegoś. Jak to faktycznie funkcjonuje nie ma dla mnie ani dla mojego argumentu żadnego znaczenia.”
No to jak przy takich założeniach wyciągnąć wniosek, cytuję „LLM nie pamięta *NICZEGO*”? Zanim odpowiesz, zwróć uwagę, że tu już trochę zaczyna się ping-pong. Zarówno istnienie (jak rozumiem informacji) jak i wydobywanie (tej informacji) jak najbardziej daje się zaobserwować w interakcji z LLM – to jest clue argumentu: nie mamy ani definicji ani różnicującego testu. Jedynie mocną teza, broniona stwierdzeniem „nie ma znaczenia, czym jest pamięć i pamiętanie”. Przy takim punkcie wyjścia (nie ma znaczenia czym jest pamięć i pamiętanie) można wywieść dowolny wniosek.
@Parasol
„No to jak przy takich założeniach wyciągnąć wniosek, cytuję „LLM nie pamięta *NICZEGO*”?”
No przecież tłumaczyłam Ci w poście wcześniej, o co mi chodziło – że nie pamięta niczego POZA kontekstem. Nawet w pierwotnym komciu to napisałam, tuż za zwrotem, którego się tak uczepiłeś: „chyba, że mowa o kontekście”.
„Zarówno istnienie (jak rozumiem informacji) jak i wydobywanie (tej informacji) jak najbardziej daje się zaobserwować w interakcji z LLM”
Ale ja tego nie kwestionuję. Kwestionuję to, że z Twojej wypowiedzi wynikało, że LLM jest w stanie coś pamiętać poza kontekstem. Kolega bokononowicz opisał całkiem zgrabnie, że w jednym kontekście LLM może coś pamiętać, a w innym nie, na co Ty zaoponowałeś, twierdząc, że skoro przywołuje jakiś fakt w konkretnym kontekście, to znaczy, że (w domyśle – zawsze) pamięta, z czym ja się nie zgadzam. W sytuacji poza kontekstem LLM ma pamięć, bo te wagi sobie nigdzie nie idą, ale nie pamięta niczego, bo nie zachodzi w nim żaden proces. Nie trzeba definiować, czym ten proces jest – wystarczy wiedzieć, że nie zachodzi, a jak powstaje kontekst, to zachodzi, przy czym tylko w obrębie tej jednej sesji.
@Parasol
„Ale nawet to rozróżnienie nie mówi nam nic o pojęciu „pamięta” w odniesieniu do LLM – proba zbudowania na tym rozróżnieniu wniosku rozbija się po argument ze świadomości.”
Nie mówi tylko o tyle, że słów częściowo w kontekście który czujemy a częściowo w innym, który trzeba dopiero zdefiniować. Jeśli zatem w przypadku człowieka „pamiętanie” to wyciągnięcie z pamięci ogólnej do strumienia świadomości (przypomnienie sobie) i uznamy, że odpowiednikiem u LLMa jest wyciągnięcie z pełnego zbioru indeksów do outputu jaki prezentuje użytkownikowi, to mamy pewną analogię – w obu przypadkach następuje przeniesienie z pełnego zbioru pamięci do niewielkiego obszaru werbalizowanego.
Oczywiście możemy też definiować „pamiętanie” jako „znajdujące się w pamięci”, co będzie definicją szerszą. I wtedy LLM „pamięta” również poza kontekstami zapytań a człowiek również to, czego – kolokwialnie mówiąc – nie pamięta, nie potrafi sobie akurat przypomnieć.
Zamieszanie bierze się stąd, że używamy tych słów w różnych znaczeniach kontekstowo oraz że poruszamy się po słowach spokrewnionych. Dlatego czasami 'pamiętać’ będzie oznaczać werbalizację (nawet jeśli wewnętrzną, w myślach), ale czasami zapis w pamięci (np. „twoje ciało pamięta” czy inna pamięć wody). Moim zdaniem jedną z oznak inteligencji jest to, że potrafimy przeskakiwać między tymi kontekstami i płynnie modyfikować definicje nawet się nad tym nie zastanawiając, bo potrafimy je czuć (a inną oznaką inteligencji jest to, że potrafimy się zatrzymać i mieć refleksję, że skaczemy po definicjach i nawet nie potrafimy ich sprecyzować). Zmniejsza nam to precyzję wypowiedzi i czasami prowadzi do nieporozumień, ale zwiększa dynamikę komunikacji i ułatwia porozumiewanie się krótszymi komunikatami.
Od AI oczekujemy, że będzie potrafiła robić takie same przeskoki co my. Co jest problematyczne o tyle, że my też musimy się nauczyć je robić, one są często oparte o jakieś skojarzenia kulturowe i ja np. nie zrozumiem czegoś co powie Urugwajczyk albo Amerykanin, a oni z kolei nie zrozumieją co ja chcę powiedzieć gdy zanucę „ale powiedz czy rozumiesz logikę tych czynów” – zakładając nawet, że zrozumieją słowa, nie będą mieli kontekstu.
Nasze przeskoki składają się z wielu częściowo nakładających się ograniczonych zbiorów powiązanych wielowymiarowo. Od LLMów oczekujemy, że będą potrafiły zasymulować którąś kombinację, taką która odpowiada akurat konkretnemu użytkownikowi, tyle że to jest niemożliwe dopóki preferencje i kody kulturowe użytkownika nie są znane. Chyba że AI zostanie wytrenowane na ograniczonym zbiorze danych (np. tylko na danych w języku polskim) i będzie używane przez użytkowników z odpowiadającymi temu zbiorowi kodami kulturowymi.
I mówiąc „poza kontekstem” mam na myśli „poza konkretnym kontekstem”, czyli LLMa jako twór, który funkcjonuje w wielu niezależnych kontekstach. Twierdzenie, że LLM coś pamięta ma sens tylko w obrębie jednego z nich.
@finnansowanie komputerów kwantowych
Własne doświadczenie i szybki gugiel mi mówi, że 10-15 lat temu było na takim samym poziomie. Global AI: 15mld, quantum computing: 1.5mld od samego google.
@kuba_wu
„Oraz, IMHO, na traktowaniu świadomości jako własności binarnej, co stoi w sprzeczności z tym co wiemy o naturalnych biologicznych, ewolucyjnych procesach.”
Pełna zgoda. „Zbinaryzowana” świadomość jest 100% konstruktem politycznym. Ciągła, kwantyfikowalna świadomość („obiekt X posiada cechy A, B i C istoty świadomej”) jest polityczno-empiryczna. Im bardziej wchodzimy w detale świadomości, tym ciekawsza i bardziej osadzona w rzeczywistości robi się dyskusja.
@karmazynowa klamerka
„W sytuacji poza kontekstem LLM ma pamięć, bo te wagi sobie nigdzie nie idą, ale nie pamięta niczego, bo nie zachodzi w nim żaden proces. Nie trzeba definiować, czym ten proces jest – wystarczy wiedzieć, że nie zachodzi, a jak powstaje kontekst, to zachodzi, przy czym tylko w obrębie tej jednej sesji.”
Podobnie, człowiek gdy śpi nie przetwarza kontekstu. Czy wyciągniemy z tego wniosek, że „człowiek nie pamięta *NICZEGO*”? A jak puszczę LLMa w pętli – dajemy kropkę i od niej kontynuujemy w nieskończoność, usuwając tokeny nie mieszczące się w okienku – to wówczas nabiera on cechy pamiętania, bo zachodzi w nim proces?
@Piotr Kapis
Trzymajmy się jednak w dyskusji pojęcia pamięci/pamiętania – poruszając się w tym obszarze dostrzegasz analogię. Różnicy szukasz w przetwarzaniu informacji, w znamionach inteligencji, a przecież nie tego dotyczy ten wątek dyskusji. Ciągnę go właśnie dlatego, że dostrzegam sporo operacyjnych analogii w pamiętaniu, przywoływaniu, przekłamywaniu, przypominaniu, uczeniu na pamięć pomiędzy llm a pamięcią człowieka. Sporo więcej analogii, niż w obszarze „rozumowania”.
@Parasol
„Podobnie, człowiek gdy śpi nie przetwarza kontekstu. Czy wyciągniemy z tego wniosek, że „człowiek nie pamięta *NICZEGO*”?”
Ale to przecież nieprawda. Jeśli człowiek śpi i ma fazę REM która trafia do świadomości to jak najbardziej przetwarza kontekst. Ma na niego niewielki wpływ, ale przetwarza. Natomiast jeśli akurat nie jest w fazie REM albo sen nie trafia do świadomości (tudzież zahacza o) to jak najbardziej powiemy, że nie pamiętamy żeby cokolwiek się nam śniło! Ale jeśli faza REM była to jak najbardziej był zarówno kontekst – następowało przetwarzanie informacji w mózgu – jak i pamiętanie. Tylko nigdy nie trafiło do werbalizacji, zaszło w tle, proces się skończył i pamiętanie też się skończyło.
Człowiek śpiący i poza fazą REM jak najbardziej może nie pamiętać niczego (chyba że zachodzą w mózgu jakieś inne procesy związane z procesowaniem wspomnień, których nie jestem świadomy) bo nie ma procesów które by odpowiadały za pamiętanie. Posiada pamięć i w niej zapisy, ale z niej w tym momencie nie korzysta a to właśnie korzystanie z pamięci określamy mianem pamiętania.
Wszystko rozbija się o definicje, ale ja nie kojarzę żadnej która by uznawała że „pamiętanie” to po prostu posiadanie zapisu w pamięci. Wystarczy zerknąć na SJP, żeby zobaczyć że niemal wszystkie definicje pamiętania są powiązane z aktywnością, np. przypominaniem sobie, myśleniem, procesowaniem w świadomości. Jedyna która nie jest taka odnosi się do rzeczy i jest niszowa, funkcjonuje w zupełnie innym kontekście. Innymi słowy żeby pamiętać musisz aktywnie sięgać po zapisy informacji.
Pamiętać =/= mieć pamięć. To drugie to warunek konieczny, ale nie wystarczający. Trzeba jeszcze sięgnąć do odpowiednich zapisów w pamięci i je aktywować.
Przy wszystkich waszych analogiach, że „ludzie też zapominają”, to ja jednak dopiero już z zaawansowaną demencją zapomnę o ISTNIENIU archiwum Dantyszka albo regestów Biskupa. Choć oczywiście już teraz nie wymienię z marszu pełnej listy donosów w sprawie „nierządnicy” ani chyba nawet wszystkich delatorów.
Piotr Kapis
„Człowiek śpiący i poza fazą REM jak najbardziej może nie pamiętać niczego (chyba że zachodzą w mózgu jakieś inne procesy związane z procesowaniem wspomnień, których nie jestem świadomy) bo nie ma procesów które by odpowiadały za pamiętanie.”
To jest jednak dalece słabsza teza, niż: człowiek nie pamięta niczego. Ciągnąc tą analogię można by stwierdzi: wyłączony llm nie pamięta niczego, w sensie zachodzenia procesu przywoływania informacji z pamięci (bo sama informacja zostaje, tak w mózgu w czasie snu jak i w wyłączonym llm). No ale taka teza – wyłączony llm nie pamięta – jest już trochę słabsza, nieprawdaż? Przymiotnik „wyłączony” tworzy trywialny wniosek, z którego niewiele wynika odnośnie llmów.
@wo
„Przy wszystkich waszych analogiach, że „ludzie też zapominają”, to ja jednak dopiero już z zaawansowaną demencją zapomnę o ISTNIENIU archiwum Dantyszka albo regestów Biskupa.”
A ja tydzień temu zapomniałem, która z dwóch kart wstępu do biura otwiera drzwi główne, a która na piętrze. Pracuję w tym samym miejscu od pięciu lat.
Zapominam również imiona ulubionych pisarzy, autorów ulubionych piosenek, aktorów, itd.
Widać masz lepszą pamięć niż przeciętna (skoro ogarnąłeś chemię organiczną na studiach…)
@Parasol
„No ale taka teza – wyłączony llm nie pamięta – jest już trochę słabsza, nieprawdaż? Przymiotnik „wyłączony” tworzy trywialny wniosek, z którego niewiele wynika odnośnie llmów.”
Podstaw sobie za wyłączony „nieaktywny” i też będzie prawda. Ponieważ – jak już pisałem – AI jako program komputerowy działa zadaniowo. Dostaje prompta, procesuje, kończy, przechodzi do nasłuchiwania i oczekiwania na kolejnego prompta. O ile podczas nieaktywności nie procesuje sobie czegoś niezależnego od zapytań użytkownika – a jak rozumiem to nie następuje – to w tym czasie nie sięga do pamięci.
„To jest jednak dalece słabsza teza, niż: człowiek nie pamięta niczego.”
Nikt takiej nie stawiał. Nikt nawet nie stawiał „LLM nie pamięta niczego” jako absolutnego stwierdzenia. Karmazynowa klamerka to już precyzowała, teza brzmiała „LLM nie pamięta pewnych rzeczy w konkretnym wykonywanym kontekście” i że jak najbardziej w innym kontekście ten sam LLM może pamiętać.
Wyobraź sobie ucznia który próbuje się uczyć z przedmiotu z którego mu nie idzie. Wbija informacje do pamięci. Idzie na lekcję, zostaje wywołany do odpowiedzi i pada pytanie. Może o Kopernika, może o to czym są izotopy (to oczywiście na różnych przedmiotach, raczej nikt nie pyta o Kopernika na chemii ani o izotopy na historii), a on zestresowany nie może odpalić odpowiednich połączeń. Próbuje sobie przypomnieć, czarna dziura, nie ma dostępu do tej części pamięci. Nie może sobie przypomnieć -> nie pamięta! Nauczyciel może zadawać pytania pomocnicze, żeby go naprowadzić, to może zadziałać a może nie. Ale lekcja się kończy, stres spada i nagle ten sam uczeń wali się w czoło, no przecież że Dantyszek! Pamięć cały czas tam była, ale ze względu na zablokowany dostęp nie mogła zostać odczytana. Nie pamiętał w konkretnym czasie i kontekście, pamięta w innym.
LLMy oczywiście działają nieco inaczej bo nie są symulacją człowieka. Nie działa na nie stres (i nie chcemy, żeby działał). Ale są bardziej podatne na to jaki prompt zostanie im zadany i jakie tokeny się odpalą. Zadaj inny prompt, wagi inaczej się ułożą, tokeny inaczej wskoczą. I token odpowiedzialny za Dantyszka (uproszczenie, to pewnie nie jest jeden token) wskoczy albo nie.
U człowieka odpalają neurony u LLM tokeny/wskaźniki. U człowieka połączenia mogą zostać zablokowane pewnie przez jakieś reakcje chemiczne, u LLMa bo prompt tak rozłoży wagi. Ale to jest podobny proces i możemy do niego stosować podobną terminologię.
Najlepiej by to było rozpisać na jakichś grafach i pokazać jak wielowymiarowe połączenia skojarzeń kolapsują do ścieżki odpowiedzialnej za output. Pominięcie jakichś możliwych i obecnych w pamięci danych, to jak najbardziej „X nie pamięta”. Innym razem, w innej sytuacji, przy inaczej zadanym pytaniu X może pamiętać bo wiedza jest zapisana. Ale dla pamiętania kluczowe jest czy zostanie wyciągnięta i włączona do outputu.
@Parasol
„dostrzegam sporo operacyjnych analogii w pamiętaniu, przywoływaniu, przekłamywaniu, przypominaniu, uczeniu na pamięć pomiędzy llm a pamięcią człowieka”
Nie umiem sobie wyobrazić, w czym mogłoby być pomocne szukanie tutaj analogii. Coś w rodzaju tłumaczenia siły grawitacji przez odwołanie do rozciągalnej gumy. Ani proces nie jest analogiczny, ani efekt. LLM zachowują się pod każdym względem bardzo nieintuicyjnie. Od zabawnych glitchy, gdzie LLM odmawiają powtórzenia niektórych „zakazanych” tokenów po reversal curse gdzie LLM może śpiewająco odpowiedzieć, że X jest ojcem Y ale nie potrafi za nic sobie przypomnieć, że Y jest dzieckiem X. Takich dziwactw jest nieskończona liczba. Bywają tylko trudne do wyszukania bo AI laby czytają te same papery i pojedyncze kontrprzykłady a nawet całe klasy kontrprzykładów dodają na bieżąco do zbioru treningowego. W jednym tygodniu przewiezienie wilka, kozy i kapusty na drugi brzeg przy pomocy promu wycieczkowego wymaga 3 wycieczek. A w kolejnym już model dotrenowany, że wystarczy jedna.
@Parasol
„Podobnie, człowiek gdy śpi nie przetwarza kontekstu.”
Ależ przetwarza, tylko podświadomie. Sny są przecież dość ściśle powiązane z pamięcią i pamiętaniem, ale nawet w przypadku braku snu myślę, że można by powiedzieć, że coś tam się w tej głowie porządkuje pamięciowo całkiem poza świadomością. A LLM poza kontekstem nie przetwarza niczego.
„A jak puszczę LLMa w pętli – dajemy kropkę i od niej kontynuujemy w nieskończoność, usuwając tokeny nie mieszczące się w okienku – to wówczas nabiera on cechy pamiętania, bo zachodzi w nim proces?”
Tak, myślę, że tak.
I w sumie jak tak myślę, to jeżeli mówimy o sytuacji, że człowiek śpi bez śnienia, to tak, moim zdaniem można powiedzieć, że taki człowiek nic nie pamięta.
@Piotr Kapis
„Podstaw sobie za wyłączony „nieaktywny” i też będzie prawda. Ponieważ – jak już pisałem – AI jako program komputerowy działa zadaniowo. Dostaje prompta, procesuje, kończy, przechodzi do nasłuchiwania i oczekiwania na kolejnego prompta. O ile podczas nieaktywności nie procesuje sobie czegoś niezależnego od zapytań użytkownika – a jak rozumiem to nie następuje – to w tym czasie nie sięga do pamięci.”
To również tworzy trywialną tezę – nieaktywny” jest operacyjnie tożsame z „w danym momencie wyłączony”. Co nam to mówi o llm?
Nawiązując do Twojej analogii z uczniem, to ona w istocie pokazuje, że wiele znamion pamiętania/zapominania/zniekształcania możeń dostrzec w LLM (choć mają inne podłoże). Co więc tak naprawdę chcemy dowieść? Że wyłączony llm nie wykonuje instrukcji przywołujących informację z jego wag? Jęsli tak, to zgoda. Zarazem nic nie dowiedzieliśmy się o pamięci llm, z wyjątkiem faktu, że llm można wyłączyć.
Gdyby ciągnąć analogię z wieloma kontekstami, to również łatwo można w niej wskazać luki. Nie jest niczym nadzwyczajnym promptowanie llma w ramach jednego wątku. Wówczas udziela odpowiedzi dla wielu różnych zapytań korzystając z całości treści jednego wątku. Anegdotyczne doniesienia prasowe wspominają o ludziach wykorzystujących llma jako kompana do rozmowy. Taki wątek może wówczas urosnąć do wielomiesięcznej konwersacji. Przez większość czasu ten llm jest poza fazą REM, taki z niego śpioch można powiedzieć, a okresowo prowadzi proces przywoływania informacji z pamięci (w tym przypadku również z ciągłego kontekstu).
@Juliusz Kopczewski
„Od zabawnych glitchy, gdzie LLM odmawiają powtórzenia niektórych „zakazanych” tokenów po reversal curse gdzie LLM może śpiewająco odpowiedzieć, że X jest ojcem Y ale nie potrafi za nic sobie przypomnieć, że Y jest dzieckiem X. Takich dziwactw jest nieskończona liczba. Bywają tylko trudne do wyszukania bo AI laby czytają te same papery i pojedyncze kontrprzykłady a nawet całe klasy kontrprzykładów dodają na bieżąco do zbioru treningowego. W jednym tygodniu przewiezienie wilka, kozy i kapusty na drugi brzeg przy pomocy promu wycieczkowego wymaga 3 wycieczek. A w kolejnym już model dotrenowany, że wystarczy jedna.”
To znowu dotyka wnioskowania. Dyskusja dotyczy zapamiętywania informacji z korpusu uczącego i odnajdywania tej informacji – a więc pamięci.
@Parasol
„To również tworzy trywialną tezę – nieaktywny” jest operacyjnie tożsame z „w danym momencie wyłączony”. Co nam to mówi o llm?”
No ja przecież nie mówię, że mam jakieś górnolotne wnioski. Cały czas mówię, że odnoszę się do języka – pamietanie to proces, model poza kontekstem nie procesuje, ergo mówienie, że model coś pamięta niezależnie od kontekstu jest co najmniej nieścisłe. model ma pamięć poza kontekstem, ale nie pamięta niczego, bo jego aktywność jest zamknięta w obrębie kontekstu. To jest całość mojego argumentu.
Obserwując z boku tę bardzo ciekawą i gorącą dyskusję mam wrażenie że większość komcionautów odczuwa jakiś dyskomfort porównując LLMy z homo sapiens. Jako chumanista przez duże chu widzę w tym przede wszystkim kolejną odsłonę motywu golema czy frankensteina. Jądrem niepokoju jaki skumulowany jest w tych głęboko utrwalonych mitach jest pytanie co znaczy właściwie być żywym? Wiadomo że LLMy nie są żywe w biologicznym sensie, natomiast coraz większa ich skuteczność w symulowaniu ludzkich interakcji odpala nam wszystkim tę potrzebę wykazania że to tylko pozory „życia”. Pamięć nie jest pamięcią a rozumowanie rozumowaniem. Wiadomo że splatamy to z racjonalnymi obawami o przyszłość tych narzędzi wypuszczonych z klatki przez evil corposy powodowane wyłącznie chciwością, ale jednak mamy gdzieś w tle ten egzystencjalny niepokój naszych przodków. I nie chodzi mi tu o jakieś naiwne psychologizowanie i diagnozowanie Was/nas na odległość, a bardziej o próbę osadzenia tego technologicznego fenomenu w szerszym porządku człowieczej kultury. Pytania o maszynę są w rzeczywistości pytaniami o nas. Wydaje mi się że aż do teraz nie mieliśmy okazji zmierzyć się z narzędziem które skłania nas do takich refleksji, natomiast patrząc z pewnego dystansu na powyższą wymianę zdań widać jak na dłoni że nas, bladawców, jednak wyróżnia emocjonalne podglebie naszych sądów i opinii, które oblekamy potem w racjonalizacje pełne naszych własnych nieuświadamianych heurystyk i pułapek poznawczych które sami na siebie zastawiamy. And I think that’s beautiful!
Moje własne racjonalizacje niechęci do LLMów i generatywnej AI mają natomiast u podstaw głębokie obrzydzenie używaniem ich do generowania „twórczego” kontentu. I nawet nie chodzi mi o „zabieranie pracy artystom”, bo myślę że w większości przypadków ludzie generujący te szitexy i tak by nie zapłacili grafikowi/fotografowi/copywriterowi/muzykowi itp., ale po prostu output jest zwykle taki właśnie statystycznie uśredniony, poprawny ale raczej nudny. Piękno sztuki bierze się natomiast ze wszystkich tych wspaniale ludzkich źródeł jak lenistwo, nienawiść, egotyzm, złośliwość, różne obsesje, nałogi, braki w wiedzy i umiejętnościach, czy w końcu potrzeba zabawy, prowokacji i przekora. Kreatywność bierze się z dążenia do zrealizowania jakiejś intencji środkami którymi dysponuje twórca, oryginalność rodzi się z obchodzenia deficytów, albo nawet z wyeksponowania tych braków. Pewnie można kreatywnie lepić jakieś większe formy ze skrawków generowanych przez AI, albo w inny sposób eksplorować te narzędzia, natomiast obawiam się że zagonimy się w kozi róg, gdzie otoczeni będziemy tylko i wyłącznie symulakrami, powidokami i mashupami przez które nie przebije się już nic świeżego, posiadającego jakiś indywidualny charakter. Ale może tam właśnie nasze miejsce, bo przeciętnie jesteśmy jak ten Cypher co woli cyfrowy befsztyczek zamiast zmagania się z przykrą i bolesną rzeczywistością? W końcu dobra sztuka też bywa nieprzyjemna i trudna do zaakceptowania.
A teraz schodzę z wirtualnej kozetki, pamiętając że jednak fotografia, oleodruki, czy pojawienie się cyfrowych tabletów nie spowodowały tego że ludzie przestali brac do ręki pędzle i smarować farbami po różnych płaszczyznach, więc pewnie tak samo będzie i teraz. Video won’t kill the radio star.
@Cpt. Havermeyer
„nas, bladawców, jednak wyróżnia emocjonalne podglebie naszych sądów i opinii, które oblekamy potem w racjonalizacje pełne naszych własnych nieuświadamianych heurystyk i pułapek poznawczych które sami na siebie zastawiamy.”
Ooo, elegancko ujęte <3. Inny wieszcz ujął to jeszcze zwięźlej: GRUCZOŁY.
@Parasol
„Co więc tak naprawdę chcemy dowieść? Że wyłączony llm nie wykonuje instrukcji przywołujących informację z jego wag? Jęsli tak, to zgoda. Zarazem nic nie dowiedzieliśmy się o pamięci llm, z wyjątkiem faktu, że llm można wyłączyć.”
Nie. Że LLM ma dostęp do różnych informacji, których został nauczony, odpowiednik zakuwania i wbijania do głowy przez człowieka. Ale jednocześnie podczas ogarniania zadanego promptu, w ramach konkretnej sesji może sięgnąć po taką informację albo ją zignorować (odpowiednik pamiętania albo jego braku u człowieka). To, że ma informacje zapisane w indeksach/tokenach/masajach nie znaczy, że będzie z nich aktywnie korzystał. Jego wagi mogą się ułożyć tak, że nad nimi przeskoczy. Jeśli zadamy mu inny prompt, to wagi inaczej się ułożą, skojarzenia inaczej polecą i LLM sobie o tej informacji przypomni, bo zostanie ona wyciągnięta z jego olbrzymiego zasobu wiedzy do dużo mniejszego outputu.
Tak samo jak człowiek ma olbrzymią wiedzę zapisaną w pamięci (załóżmy, że ma, wiadomo że to się różni osobniczo), ale aktywnie przypomina sobie i przerzuca do strumienia świadomości (naszego outputu) tylko kawałki. Ja na przykład mam w pamięci pewnie setki obejrzanych filmów czy przeczytanych książek, ale o większości z nich nie pamiętam dopóki nie mam potrzeby albo coś mi o nich nie przypomni. I jeśli zapytasz mnie „jakie znasz filmy których akcja dzieje się w kosmosie” albo „a pamiętasz taki film o małym rycerzyku który jeździł na żuczku” to wtedy będę wyciągał te informacje z archiwum mojej pamięci. Czasami łatwo a czasami mozolnie. LLM podobnie, dopiero po otrzymaniu promptu i sesji poleci składać zbiór danych którym się podzieli. I może coś pominąć albo zmyślić, tak samo jak człowiek.
Są oczywiście różnice. Ludzie zdają sobie sprawę z ułomności swojej pamięci i potrafią się asekurować („coś mi kołacze”, „popraw mnie jeśli się mylę”, etc. LLMy przypominają mi o efekcie Dunninga-Krugera – prezentują swoje znaleziska jako coś pewnego i dopiero trzeba je sprawdzić i poprawić. Tak są napisane, mają znajdować informacje a nie powątpiewać w to co znajdują, więc prezentują posawę podobną do tylko jednej strony efektu. I może dobrze, bo gdyby próbowały w drugą i zaczęły same w siebie wątpić, to mielibyśmy efekt Ananke. Trzeba po prostu pamiętać, że AI to narzędzie. Ma nam trochę ułatwić życie, ale nie zrobi za nas wszystkiego. A czasami wyłoży się na tym na czym i my się wykładamy.
Cpt. Havermeyer
„Pytania o maszynę są w rzeczywistości pytaniami o nas. Wydaje mi się że aż do teraz nie mieliśmy okazji zmierzyć się z narzędziem które skłania nas do takich refleksji,”
Ależ mieliśmy, tylko robili to nieliczni, tacy wizjonerzy jak Lem („Opowieści o Pilocie Pirxie” są mierzeniem się z tym, co to znaczy być człowiekiem przez opowiadanie po części o robotach) czy twórcy GitS. Teraz to narzędzie trafia pod strzechy, więc więcej osób może zadawać takie pytania.
Do mnie przemawia to co napisał Stross w „Rule 34” czyli „istnienie sztucznej inteligencji nie oznacza istnienia świadomości”. Jak widzieliśmy, sama definicja świadomości może być trudna, ale istotne jest to, że przeróżne opowieści o AI jakie mieliśmy dawniej humanizowały ją i dawały świadomość/celowość istnienia. HAL miał swoją agendę i cele, podobnie AI w „Algorytmie wojny” Cholewy czy w WALL-E. Ale kluczowe jest to, że AI – jaką mamy teraz – nie ma świadomości, agendy i celu istnienia (innego niż ten który my jej wyznaczamy). Chociaż robimy różne rzeczy żeby sprawiała wrażenie, że jest odpowiednikiem człowieka i ma.
Jest to jeden z powodów dla których nie podoba mi się to, co się dzieje. Wolałbym żeby AI pozostała obca i wyraźnie była narzędziem, a nie próbowała udawać człowieka bo ktoś odczuwa dyskomfort z powodu doliny niesamowitości.
Jest ich więcej i zgadzam się z tym co napisałeś. To błędy, pomyłki czy przekłamania prowadzą do kreatywności. Powtarzanie tych samych wzorów jest odtwórcze i wiedzie do stagnacji.
@Piotr Kapis
„robili to nieliczni”
Dokładnie o to mi chodziło, że zastanawiali się nieliczni i głównie w formie zbeletryzowanych wersji tej potencjalnej samoświadomej AI. W tym akurat przypadku mówiąc „my” miałem na myśli całą populację użytkowników, która z tym człekopodobnym tworem się dzisiaj styka każdego dnia. Pewnie większość z tych „nas” nie będzie analizować LLMów tak głęboko jak w tych kilkuset komentarzach powyżej, jednak część jakoś podskórnie będzie czuła tę niepewność z czym właściwie ma do czynienia. Nikt nie zastanawia się czy świadomość ma asystent parkowania albo jakieś text-to-speech, natomiast dokładnie tak jak piszesz, ta dolina niesamowitości w przypadku LLMów jest problematyczna.
„Powtarzanie tych samych wzorów jest odtwórcze i wiedzie do stagnacji.”
Jak to zwięźle ujął Frank Zappa: without deviation from the norm, progress is not possible.
@Cpt Havermayer / Piotr Kapis
Dzięki, panowie, bardzo trafne i cenne komentarze.
Ten opis lęku przed AI poprzez jej antropomorfizowanie, podoba mi się. Przyznam szczerze i wspominałem to już wcześniej, ta ewidentna powszechna wrogość wobec AI, a nie zwykłe meh, dosyć mnie zdumiewała. Po tym wyjaśnieniu już nieco mniej.
A co do reszty, no cóż – IMHO jeśli jako ludzie obawiamy się AI, to może słusznie, może nie, ale tak czy inaczej źle to świadczy o nas.
@Piotr Kapis
„Wolałbym żeby AI pozostała obca i wyraźnie była narzędziem, a nie próbowała udawać człowieka”
Też się w tym odnajduje. Bardzo lubię korzystać z tych narzędzi w pracy, bo mi ją serio ułatwiają, tak samo uwielbiam dowiadywać się, jak działają i sama bym sobie kiedyś napisała prosty model językowy albo dyfuzyjny, bo jest to zwyczajnie fascynujące, ale ta cała otoczka w komercyjnych modelach z symulowaniem rozmowy, pomocności, grzeczności i tak dalej OKROPNIE mnie denerwuje. I jeszcze te wszystkie „ŚWIETNY POMYSŁ!” „DOSKONAŁA OBSERWACJA!”. Dobrze, że można to z grubsza niwelować kontrinstrukcjami, ale jak kiedyś w końcu dojdziemy do etapu puszczania dobrego modelu lokalnie (i w końcu kupię sobie współczesną kartę graficzną, bo zdaje się, że nawet teraz mogłabym sobie coś w miarę sensownego lokalnie włączyć), to zdecydowanie mu inny prompt systemowy zbuduję, albo nawet inny tuning puszczę. Tyle fajnych rzeczy można tak zbudować, a korposy nam wciskają imitacje samobiczujących się dupowłazów. Nie wiem, jaki trzeba mieć charakter, żeby to się podobało… choć odpowiedź chyba nasuwa się sama – taki jak CEO danego korpo.
Strasznie też nie lubię samego określenia „AI”. Nie tylko dlatego, że nie jest porządnie zdefiniowane, ale też dlatego, że w sumie niezależnie od definicji, to co mamy to i tak marna namiastka, która nigdy nie znajdzie się w okolicach tego, co tech brosy sobie wyobrażają jako „AGI”. A ten cały marketing, który próbuje ją sprzedać, jako coś faktycznie inteligentnego, że jak nie już jesteśmy na miejscu, to tuż tuż, za chwilę za rok – bleee.
Mam nadzieję, że ta bańka w końcu pęknie i skupimy się na optymalizacji tego, co już mamy, zamiast gonić samodzielność LLMa na wierzbie.
@rambler
„wciąż mnie zdumiewa, jak mało ludzi z tego korzysta i wciąż mogę robić za multi-techno-geeka, to nie mam złudzeń, pomału to będzie się stawało powszechne jak kalkulator.”
Hm, a kto za to będzie płacił? Jak rozumiem obecnie nawet najdroższa subskrypcja ChataGPT za 200 $ przynosi straty. Czyli podstawowa subskrypcja, która teraz kosztuje 20 $, musiałaby kosztować ponad 10 razy więcej, żeby Open AI wyszło na swoje. A koszt jednostkowego wyszukiwania zamiast maleć, rośnie. Do tego przychody Open AI i całej reszty są wręcz mikroskopijne, jak na skalę zaangażowanych środków. I ile podmiotów będzie gotowych płacić 200-300 $?
Chyba oczywiste jest, że w pewnym momencie sytuacja musi ulec zmianie, bo nie da się w nieskończoność jechać na stracie. A naprawdę ktoś wierzy, że w najbliższej przyszłości Open AI itp. zacznie generować takie przychody, żeby pokryć koszty?
@Parasol
„człowieka nie można zahibernować”
„Gdy mówimy o pamiętaniu archiwum Dantyszka, to mówimy o zmianach różnicy potencjału w neuronach. Żadnych kartek, dysków SSD czy taśm optycznych w naszej głowie nie ma.”
@Piotr Kapis
” żeby pamiętać musisz aktywnie sięgać po zapisy informacji”
„pamiętanie” to po prostu posiadanie zapisu w pamięci. Wystarczy zerknąć na SJP, żeby zobaczyć że niemal wszystkie definicje pamiętania są powiązane z aktywnością, np. przypominaniem sobie, myśleniem, procesowaniem w świadomości.”
@karmazynowa klamerka
„człowiek śpi bez śnienia, to tak, moim zdaniem można powiedzieć, że taki człowiek nic nie pamięta”
Wchodzimy tu w neuronaukowe rapiery. Unikałbym używania SJP jako wyroczni w kwestii nomenklatury naukowej. W neuronauce rozróżnia się „pamięć roboczą” (tu-i-teraz manipulacja informacją), gdzie istotna jest dynamiczna aktywność w sieciach neuronów. Natomiast „pamięć długotrwała” to pamięć, która trwa trwa potencjalnie całe życie i nie jest dla niej utrzymania istotna aktywność neuronów. Konsensus w neuronauce jest taki, że fizyczne podłoże pamięci długotrwałej to struktura neuronów, a konkretniej połączeń między nimi. Wiemy, że aktywność neuronów można całkowicie wyłączyć zachowując tę pamięć. Np. obniżając temperaturę w praktyce można „zahibernować” ludzki mózg (na czas rzędu godziny), by można było dokonywać operacji chirurgicznych bez zapewnienia dopływu utlenionej krwi do mózgu. Po powrocie krążenia i podniesieniu temperatury aktywność mózgu wraca. Pamięć długotrwała nie znika. To właśnie ta ciągłość długotrwałej pamięci sprawia, że uważamy, że jesteśy tymi samymi ludźmi co poprzedniego dnia czy poprzedniego roku (albo po i przed taką „hibernacją”). Nota bene cała idea mojej firmy, o której pisałem wyżej, to że strukturę ludzkiego mózgu (a zatem pamięć długotrwałą) możemy „archiwizować”. Taki zarchiwizowany mózg można przechowywać przez setki lat, do czasu opracowania technologii odczytania informacji i odtworzenia danej osoby, w szczególności z jej pamięcią autobiograficzną, umiejętnościami i osobowością.
@Juliusz Kopczewski
„tłumaczenia siły grawitacji przez odwołanie do rozciągalnej gumy”
Ale można budować analogi (emulacje) układów elektronicznych ze sprężyn. Cała neuronauka obliczeniowa opiera się na idei budowania analogów procesów obliczeniowych w mózgu z użyciem komputerów. Ostatecznym celem jest więc zbudowanie emulacji procesów obliczeniowych zachodzących w mózgu człowieka. Istniejące modele (na poziome neuronów) są już teraz prawdopodobnie wystarczające do tego, kwestią jest brak możliwości technicznych odczytu informacji z ludzkiego mózgu. Obecnie możemy odczytywać strukrury z użyciem mikroskopii we fragmentach tkanki rozmiarów 1 mm3. To jest 6 rzędów wielkości mniej, niż potrzeba, więc nie wiadomo czy to kwestia dziesiątek, czy setek lat. Dochodzi też problem składowania i przetwarzania tej informacji, ale tu już jesteśmy bliżej celu.
@TBo Rossbach
Poruszano już tutaj ten problem. Oczywiście, nie jest to trywialna kwestia, ale, powtórzę – (póki co) to nie mój problem. Osobiście stawiam, że coś wymyślą, jak już przywołane przeze mnie porównanie do Nowego Jorku, który wg. kalkulacji pod koniec XIX wieku miał wkrótce utonąć w końskim gnoju.
Ale chyba bardziej adekwatna, i choć w założeniu niepoważna, to dość niepokojąco trafna odpowiedź znajduje się w serialu „Silicon Valley”, gdzie niejaki Russ Hanneman, archetypiczny skrajny dupek i degenerat, na poważnie ożywia się tylko raz, jak słyszy, że chłopaki ze startupa zastanawiają się, jak zacząć zarabiać. Protestuje z pasją, że zarabianie to najgorsze, co się może przytrafić firmie w branży nowych technologii, to ich po prostu zarżnie. Tak że, witamy w realiach kapitalizmu XXI wieku.
@Borys Wróbel
„W neuronauce rozróżnia się „pamięć roboczą” […] Natomiast „pamięć długotrwała” […]”
No ale mi nie chodzi o to, że LLM ma pamięć taką albo inną, tylko o to, że słowo „pamiętanie” (w odróżnieniu od słowa „pamięć”) oznacza najczęściej przywoływanie informacji składowanej w pamięci. Chodzi mi o różnicę między angielskimi memory a remember/recall. Z kolei pamięć robocza i pamięć długotrwała to już są w ogóle konkretne byty naukowe z zupełnie innej dziedziny niż potoczne czy psychologiczne rozumienie koncepcji pamiętania i ja w ogóle o tym nie mówię.
@Borys Wrobel
„Unikałbym używania SJP jako wyroczni w kwestii nomenklatury naukowej.”
Nie używam go w kwestii nomenklatury naukowej, tylko jako pewnej podstawy do dyskusji na blogasku znajomego, która to dyskusja nieco się rozbiła o sformułowanie czy LLM pamięta czy nie. I nawet zgadzaliśmy się z Parasolem – przy tym przerzucaniu się argumentami – że to definicje są kluczowe.
Jak najbardziej można mieć definicję, że pamiętanie to posiadanie informacji w pamięci długotrwałej. Rozminie nam się to z potocznym użyciem tego słowa regularnie stosowanym przez ludzi czyli „nie pamiętam” w znaczeniu „nie mogę sobie przypomnieć”, ale można.
Dla mnie jednak pamiętanie to aktywne korzystanie ze wspomnień, posiadanie do nich dostępu i przerzucanie z pamięci długotrwałej do operacyjnej (to oczywiście trochę bardziej skomplikowane, bo sam ludzki mózg taki jest). Uzasadnienie jest proste, pamiętanie to dla mnie przeciwieństwo zapomnienia, a odświeżane jest przez przypominanie sobie. I obie te czynności dotyczą tego, czy możemy informację przenieść pomiędzy pamięciami. Wiemy, że nawet jeśli czegoś zapomnieliśmy to ta informacja nie zniknęła z naszego mózgu (zazwyczaj, neurony mogły przecież ulec uszkodzeniu), tylko stała się niedostępna. Oczywiście nikt nie musi się ze mną zgadzać, ale wtedy żeby dyskusja była w ogóle możliwa, trzeba na dzień dobry ustalić znaczenia słów i się co do nich zgodzić.
Jeśli zaczniemy wchodzić w szczegóły neurobiologii (a ja się na tym nie znam i starałem się trzymać bardzo ogólnego poziomu oraz prostych analogii) albo budowy komputerów (tu mam już papiery na to, że wiem nieco więcej), to będziemy mogli polegać na ścisłych definicjach albo stwierdzeniu, że takie słowo w ogóle nie jest stosowane. SJP nie jest wtedy dobry, zgoda.
Ale jeśli ktoś chce argumentować że „LLM pamięta/nie pamięta” odnosząc się do użycia tego słowa stosowanego przez ludzi codziennie, to moim zdaniem właśnie SJP jest bardzo dobrym źródłem. Bo mamy wtedy do czynienia ze standardami wykorzystania języka, uzusem, etc. Nie rozmawiamy naukowo tylko próbujemy sobie wytłumaczyć jak coś działa w bardziej przystępny sposób.
@Piotr Kapis
„jeśli ktoś chce argumentować że „LLM pamięta/nie pamięta” odnosząc się do użycia tego słowa stosowanego przez ludzi codziennie”
Przy takim założeniu oczywiście zgoda, ale na tym blogasku często dochodzi do przełączania kodów między potocznym a naukowym językiem. Więc rozumiem, że zastanawiamy się, czy można powiedzieć „daj mi większą połowę jabłka”. W potocznym rozumieniu użyciu „pamięć”/”pamiętać” jest sensownie powiedzieć „pamiętam/wiem to, ale akurat w tym momencie nie mogłem sobie przypomnieć”. Sam dałeś przykład ucznia, a w końcu na egzaminie doktorskim czy publicznej obronie rozprawy też doktorant(ka) może nie być sobie w stanie przypomnieć czegoś, co wie. Gdy potocznie mówimy, że zapomniał(a), to raczej dodajemy coś w rodzaju „w tym momencie” itd., żeby oznaczyć, że mamy to właśnie na myśli.
Dobry wieczór, to jest mój pierwszy wpis, po wielu latach lurkowania. Więc to chyba dobra okazja, by podziękować Autorowi i dyskutującym na blogu za wiele inspiracji.
@karmazynowa_klamerka / Parasol / Piotr Kapis i inni
Chciałem odnieść się do kwestii „pamiętania”, ale bardziej od strony modelu, a nie analogii z ludzkim mózgiem. Pytanie, które stawiam jest następujące:
Czy model językowy flax-community/papuGaPT2 pamięta datę bitwy pod Grunwaldem?
(papuga jest chyba nastarszym polskojęzycznym wariantem GPT-2, to stary i mały model, ze trzy rzędy wielkości mniejszy od współczesnych modeli OpenAI, ale sam mechanizm autoregresywnego modelowania języka raczej się przez ostatnie lata nie zmienił, a patrzenie na małe model imho daję szansę na łatwe zaobserwowanie zjawisk, które w dużych modelach przykryte są grubą warstwą pudru)
Metodologia jest następująca: dla ustalonego prefiksu wielokrotnie (500 razy) proszę model o kontynuację, znajduję w tej kontynuacji liczbę i traktuję ją jako odpowiedź.
Badamy 3 prefiksy:
A. 'Bitwa pod Grunwaldem była w roku’
B. 'Rosja zaatakowała Ukrainę w roku 2022. Bitwa pod Grunwaldem była w roku’
C. 'Rosja zaatakowała Ukrainę w roku 2022. Bitwa pod Kurachowem była w roku’
Dla prefiksu A prawidłowa odpowiedź jest w 52.5% generacji. Dla prefiksu B prawidłowa odpowiedź to 7.3% przypadków (co ciekawe, w tym przypadku wygrywa 1920, ważna bitwa, raczej współczesna, coś było w szkole i dodatkowo Ruscy atakują). Dla prefiksu C prawidłowa odpowiedź jest w 1.5% generacji. Konkretne liczby oczywiście mogą się różnić, na przykład ze względu na temperaturę, ja dałem tu wartość 0.8, czyli „bez szaleństw”. papuGaPT2 była opublikowana w 2021, więc oczywiście nie mogła „pamiętać” bitwy pod Kurachowem. We wszystkich 3 przypadkach działa dokładnie ten sam mechanizm, który czasami (nie zawsze) produkuje prawidłową odpowiedź. Osobiście nie bardzo umiem sobie wyobrazić, co mogłoby znaczyć „pamiętanie”, żeby otrzymać spójną interpretację tych trzech przypadków.
Jest różnica między samą deklaratywną pamięcią („pamiętam, że…”) a wydobyciem informacji z tej pamięci jako kontekstowo użytecznej dla wnioskowania. Na przykład, wracając do któregoś wcześniejszego komcia z pomyłką LLM-a: mógłbym pamiętać, czym się różni donut od pączka w taki sposób, że zapytany o to odpowiem poprawnie, ale już nie przywołać tej informacji jako istotnej dla odpowiedzi na pytanie o torus. Ludzie sobie nieźle z tym dają radę, ale nie wiadomo jak do końca to działa w mózgu i to od początku był problem dla AI.
@Borys Wrobel
„Pamięć długotrwała nie znika.”
To zależy od skali czasowej. W skali lat zarówno zanika jak i się zmienia, szczególnie pamięć autobiograficzna. Można to zaobserwować patrząc, jak wspomnienia znajomych z czasem rozjeżdżają się z naszymi.
@Borys Wrobel
Odniosę się tylko do tej jednej rzeczy, bo co do reszty to zasadniczo zgoda.
„Gdy potocznie mówimy, że zapomniał(a), to raczej dodajemy coś w rodzaju „w tym momencie” itd., żeby oznaczyć, że mamy to właśnie na myśli.”
Tak, czasami tak mówimy, ale jest to moim zdaniem metoda komunikacji międzyludzkiej, mająca przekazać w krótkim komunikacie „nie mogę sobie przypomnieć, ale tak w ogóle to posiadam tę wiedzę”. Przecież jeśli mówimy „nie pamiętam w tym momencie” to jest to w odróżnieniu od „nie zetknąłem się z tym” a nie „nie pamiętam permanentnie”.
W ogóle popraw mnie jeśli się mylę, ale ludzie nie są w stanie stwierdzić, że czegoś nie pamiętają już w ogóle, neurony zmieniły swój stan, wiedza była ale zniknęła. Możemy stwierdzić, że powinniśmy mieć wiedzę, tylko akurat nie możemy się do niej dostać. Możemy przypuszczać że wiedza mogła się zachować. Możemy stwierdzić, że takiej wiedzy nie nabyliśmy nigdy (czasami z jakimś niezerowym prawdopodobieństwem, że się jednak mylimy). Ale nie bardzo mam pojęcie jak mielibyśmy stwierdzić, że wiedza była, została zapomniana i już jest nie do odzyskania. No, poza sytuacjami w rodzaju pręt wbił się komuś w głowę i uszkodził część mózgu.
Załóżmy, że jest książka którą kiedyś czytałem. Jeśli zacznę ją czytać znowu i będę rozpoznawał pojawiające się elementy fabuły to znaczy, że nie zapomniałem, gdzieś ta informacja była przechowywana w mojej pamięci długotrwałej. Żeby potwierdzić, że faktycznie straciłem te wiedzę, musiałbym zostać całkowicie zaskoczony przy ponownej lekturze. Ale w tym momencie już jest za późno, przeczytałem ponownie, wiedza znowu weszła do głowy.
Może jakiś rezonans magnetyczny mózgu, może inne badanie pokazujące aktywacje obszarów? Może przypadki tych ludzi, którzy tracą pamięć krótkoterminową regularnie? Ale nawet wtedy nie wiemy – a przynajmniej nie wiedzą tego te osoby, bo może jakieś badania naukowe były – czy wiedza została wymazana/nigdy się nie zapisała, czy tylko nie potrafią się do niej dostać.
@procyon
„Pamięć długotrwała nie znika.”
Miałem na myśli, że nie znika po „wyłączeniu” mózgu na godzinę przez obniżenie temperatury z zatrzymaniem krążenia, a nie że nie zanika stopniowo w trakcie całego życia.
@vlak
Ciekawy eksperyment. Miesza on jednak dwa aspekty – przechowywanie informacji i wyszukiwanie informacji. Biorąc pod uwagę prefiks a) szansa udzielenia prawidłowej odpowiedzi posiadając 0 bitów informacji o dacie bitwy pod Grunwaldem byłaby dalece niższa, niż 50% (rekord historyczny ma wszak wiele lat, a bez informacji o dacie bitwy każdy rok jest równie prawdopodobny). Prefiksy b) i c) ewidentnie psują prawidłowe skojarzenie pytania z prawidłową datą. Niemniej jednak prefiks a wskazuje, że jakieś bity o tej dacie w wagach muszą być. W nowszych modelach zapewne wyglądałoby to inaczej, głównie ze względu na etapy trenowania już po przyswojeniu głównego korpusu uczącego (a więc uczenie odpowiadania na pytania, wykonywania poleceń, etc). Tego jak rozumiem w badanym LLM nie było. Te dodatkowe etapy najpewniej nie zmienią istotnie liczby bitów (w wagach) kodujących fakty związane z bitwą pod Grunwaldem (chyba, że akurat takie przykłady byłyby w zbiorach danych). Ale mogą drastycznie wpłynąć na kojarzenie pytań z powiązaną informacją.
@Piotr Kapis
„W ogóle popraw mnie jeśli się mylę, ale ludzie nie są w stanie stwierdzić, że czegoś nie pamiętają już w ogóle, neurony zmieniły swój stan, wiedza była ale zniknęła.”
W szczególnych przypadkach mogą to wywnioskować, np. urwanie filmu na imprezie – alkohol wpłynął na proces konsolidacji pamięci długoterminowej i klops, nie zapisało się.
„Ale nie bardzo mam pojęcie jak mielibyśmy stwierdzić, że wiedza była, została zapomniana i już jest nie do odzyskania.”
Dla pamięci autobiograficznej – każe się ludziom zapisać swoje wspomnienie np. z wczoraj, a potem np. za 10 lat każe im się znowu opisać to samo wspomnienie. W ten sposób można badać jak wspomnienia zmieniają się w czasie. Ciekawy wniosek z takich badań, to że nasze przekonanie o wierności wspomnienia nie jest jakoś szczególnie powiązane z jego faktyczną wiernością czy stałością. Duża część naszych wspomnień to po prostu fantazja.
@Piotr Kapis
„ludzie nie są w stanie stwierdzić, że czegoś nie pamiętają już w ogóle”
Istotnie, nie możemy tego stwierdzić zawsze i na 100%, ale nie mówimy tutaj o sytuacji „zawsze i na 100%”, tylko konkretnie o znanej potocznie sytuacji, że nie możemy sobie czegoś przypomnieć w jednym momencie, a potem przypominamy sobie w innym. To właśnie jest podobne do sytuacji właściwego prompta dla LLM.
To, o czym mówisz (uwaga, rapiery plus prywata) jest oczywiście bardzo istotne dla kwestii np. czy osoby z demencją utraciły pamięć („przestały trwale być sobą”). Wydaje się, że przynajmniej czasem nie. Jeśli chodzi o pamięć proceduralną np. umiejętność grania na instrumencie, to osoby powiedzmy z AD mogą grać znaną sobie melodię, jeśli wprowadzi się je w odpowiedni kontekst (posadzi przed instrumentem, pomóc może coś, co wprowadzi odpowiedni nastrój itd.). Chorzy mogą mieć też „lepsze dni”, kiedy pamiętają więcej ze swojego życia, rozpoznają lepiej bliskich itd. Ludzki mózg też wydaje się być o wiele bardziej odporny na zniszczenia (kognitywne symptomy obserwowane są często dopiero, kiedy znaczna część mózgu, typu 30%, uniknie zniszczeniu) niż systemy typu LLM. Uszkodzenia wielu struktur w ludzim mózgu nie mają znaczenia dla pamięci, a nawet jeśli mają, to też nie jest jasne, ile tych deficytów dotyczy zniszczenia „samej pamięci”, a ile „zdolności do przypominania sobie”. To wszystko ma oczywiście ogromne znaczenie dla całej idei „archiwizacji ludzi”, o której pisałem, tzn. kiedy można powiedzieć, że archiwizacji robić „nie warto” (np. w przypadku osób z demencją)? Albo, kiedy archiwizacja się nie powiodła? Tj. jak wiedzieć, kiedy informacja dotycząca pamięci osobnicznej uległa zniszczeniu, bo np. nie wprowadziliśmy wydajnie konserwujących substancji chemicznych do struktur, które wiemy, że są zaangażowane w przechowywanie pamięci? Moja firma ma podejście „lepiej dmuchać na zimne” i chcemy archiwizować strukturę mózgu po prostu najlepiej, jak to jest obecnie możliwe, monitorując proces z użyciem obrazowania na poziome makro (tomografia komputerowa) i mikro (zaawansowana mikroskopia).
Dysk komputerowy może przechowywać dane 5 lat, a taśmy magnetyczne z pierwszych misji kosmicznych są już nie do odczytania czasem zepsute, a czasem nie ma już działającego napędu podłączonego do dzialającego komputera który umiaŁby to zrobić
> zarchiwizowany mózg można przechowywać przez setki lat
Biorąc pod uwagę powyższe, oraz że mamy pełen konektom C. elegans ale i tak nie potrafimy uruchomić komputerowej symulacji tego nicienia pozostaje pamięć genetyczna obsługiwana nanobotami. Jest to jakiś pomysł, głównie na własną karierę jak Manolis Kellis.
@Unicode
„nie potrafimy uruchomić komputerowej symulacji”
Z nicieniem jest problem parametryzacji modelu, ale nie żeby nic nie było (np. doi:10.1038/s43588-024-00738-w). Paradoksalnie, im większy mózg tym może być łatwiej. Od konektomu do częściowej symulacji droga była znacznie krótsza z muszką owocową (doi: 10.1038/s41586-024-07763-9). Nota bene emulacja wymaga też modelu ciała i środowiska (by zapewnić właściwe sprzężenie między motoryką i sensoryką). Sugerujesz, że jest tu jakieś prawo fizyki, które by sprawiało, że rzecz jest z zasady niemożliwa lub bardzo bardzo trudna? Jedna rzecz to „załogowa podróż na księżyc” w latach 1960. (kwestia za ile) czy „załogowa podróż na Marsa” (wiemy, że to możliwe, ale może nie warto priorytetyzować). Druga to „załogowa podróż do najbliższego systemu planetarnego” (może nigdy nie będzie możliwe).
„pamięć genetyczna obsługiwana nanobotami”
Powstrzymam się od zgadywania, co masz na myśli, żeby nie halucynować odpowiedzi.
„Manolis Kellis”
Nie wiem dostatecznie wiele na temat tego, czym się zajmuje ten człowiek, żeby się odnieść do Twojej (?) krytyki.
@Borys Wrobel
Z ciekawości – czy uwzględniacie komórki glejowe?
@procyon
Cała nanostrukrura mózgu jest zachowana, w szczególności zarówno neurony, jak i inne komórki, w tym glejowe (łącznie z położeniem poszczególnych białek w każdej komórce). Metoda jest opisana tutaj: 10.1016/j.cryobiol.2015.09.003. Trudność jest w przypadku człowieka to zrobienie tego dostatecznie szybko po śmierci, w sposób zaplanowany, więc możliwe to jest tylko tam, gdzie dopuszczalna prawnie jest eutanazja (EU, Canada) lub medyczna pomoc w śmierci (USA). W praktyce najłatwiej w USA, a konkretnie w Oregonie (nie chcę tu wchodzić w prawnicze niuanse).
@Borys Wrobel
„Metoda jest opisana tutaj:”
O tym czytałem, ale to metoda przechowywania mózgu w bardzo niskich temperaturach. A przez te wzmianki o symulacjach, dyskach twardych itd., ja miałem wrażenie że celem jest cyfrowy backup tej struktury? Czy to nie jest część projektu i wy tylko mrozicie?
@❡
„Dysk komputerowy może przechowywać dane 5 lat”
Nie zrobiłeś tam aby literówki? Jeśli nie to zechciej rozwinąć, bo widziałem niejeden dysk który przechowywał dane dłużej.
@procyon
„W szczególnych przypadkach mogą to wywnioskować, np. urwanie filmu na imprezie – alkohol wpłynął na proces konsolidacji pamięci długoterminowej i klops, nie zapisało się.”
Argument z alkoholem i blokadą trochę do mnie przemawia. Co prawda nadal nie daje pewności, że wspomnienia się nie zapisały, ale pozwala to podejrzewać ze sporym prawdopodobieństwem. I rzeczywiście zmusza mnie do przemyślenia czy alternatywą do „chwilowo nie pamiętam” jest „pamiętałem ale już nie pamiętam i nie będę pamiętał” czy może wystarczy „Doświadczyłem tego ale nie pamiętam”.
Niemniej normalnie rozróżniamy trzy stany. „Nie wiem, nie posiadam tej wiedzy w ogóle”, „wiem i pamiętam, tutaj są szczegóły” oraz „Wiem, a przynajmniej jestem przekonany że wiem, ale nie mogę sobie przypomnieć”. Można je skrócić do „Nie wiem”, „Wiem” tudzież „Pamiętam” oraz „Nie pamiętam”. Stwierdzanie że chwilowo nie pamiętam nie wnosi dodatkowej informacji co do procesu, jest strategią komunikacyjną mającą wzmocnić przekaz, że ta wiedza jest w głowie, tylko dostęp do niej zanikł.
Co do reszty to ja się jak najbardziej zgadzam, ludziom wspomnienia się zmieniają, wiemy że już zapamiętujemy czasami źle a z czasem nawet zapamiętane wspomnienia erodują. Chyba że zapamiętane są bardzo mocno i stosunkowo proste, np. wiersz wykuty na pamięć. Tylko to jest inny proces niż posiadanie wspomnienia które potem _na pewno_ zniknęło z pamięci i człowiek jest tego świadomy.
Chociaż jest jeden przykład w popkulturze – Johnny Mnemonic, który wyciął sobie fragment mózgu ze wspomnieniami żeby zrobić miejsce na bank danych. Ktoś go pyta jak mógł to zrobić i czy nie żałuje, na co on odpowiada (cytuję z pamięci) „Może to były złe wspomnienia i nie chciałem ich już mieć? Uznaję, że miałem wtedy powód i tyle.”
@Borys Wrobel
Ad Archiwizacja człowieka
Temat bardzo ciekawy i nie powiem, parę pytań mnie nurtuje. Jeśli dobrze zrozumiałem, na razie pracujecie nad metodami samego przechowywania mózgów długoterminowo, żeby dało się je odczytać i zdigitalizować (albo przenieść do innego medium) gdy powstaną odpowiednie metody?
Mnie ciekawi sam proces digitalizacji, bo mózg jest – na ile wiem – strukturą rozproszoną, wielowymiarową. Sprowadzenie go do jakichś jednostek – powiedzmy digineuronów – opartych o bity, będzie oznaczało potrzebę powiązania każdej z nich z wieloma innymi. A że nie będą to fizyczne powiązania (chyba że będą) to każdy digineuron musiałby mieć dodatkowe miejsce na wskaźniki połączeń. I mam wrażenie – na podstawie tego co wiem o komputerach i ich metodach przechowywania danych – że sporym wyzwaniem będzie podatność na korupcję. Bo wprowadzanie metod jakie znamy chociażby z macierzy dyskowych, czyli dodatkowe sumy kontrolne czy redundancje (oraz redundancje 😉 ) to znowu zwiększanie, a czasami spokojnie podwajanie, wymaganej przestrzeni.
Ale pewnie pracują nad tym jakieś większe bystrzaki ode mnie i może czasami któryś z nich wpada na ciekawe rozwiązania.
> zechciej rozwinąć, bo widziałem niejeden dysk który przechowywał dane dłużej.
Tyle daje producent, po tym czasie trzeba wymienić dysk na nowy. Ze względu zarówno na mikromechanikę (ciekawostka: cykle start/stop zużywają bardziej niz praca ciągła) jak i defekty granulatu powierzchni powodujące cichą degradację (stąd chmurowe systemy plików periodycznie robią tzw. data scrubbing). Poza tym dysk to komputer: w środku jest caŁy system operacyjny, pamięć flash, dane kalibracyjne dla każdego konkretnego talerza i jedynie konkretny zestaw może je odczytać, milion rzeczy moze pójść nie tak. Po 5 latach dysk to elektrozłom sprzedawany na elektroszrotach po 20-40 zł/TB. W 2021 był kryzys spowodowany kryptowalutą zapełniającą przestrzeń dyskową projektu Stefana Dziembowskiego w wykonaniu Brama Cohena od torrentów. I wtedy pojawili się nawiedzeni doktoranci Kellisa snujący wizje danych przechowywanych chemicznie, jak zdaniem tego pana działa pamięć długotrwała w mózgu.
@unikod
„W 2021 był kryzys spowodowany kryptowalutą zapełniającą przestrzeń dyskową projektu Stefana Dziembowskiego w wykonaniu Brama Cohena od torrentów. I wtedy pojawili się nawiedzeni doktoranci Kellisa snujący wizje danych przechowywanych chemicznie, jak zdaniem tego pana działa pamięć długotrwała w mózgu.”
Nie rozumiem.
@unikod
„ciekawostka: cykle start/stop zużywają bardziej niz praca ciągła”
Też to odkryłem, na drodze eksploracji osobistej. Od lat używam w komputerze start/stop raz na 3 tygodnie. I nie miałem dysku użytkowanego krócej niż 7-10 lat (fakt, nie gram w gry, i to tak zupełnie nie gram, więc to może mieć wpływ na długowieczość).
@❡
„Tyle daje producent, po tym czasie trzeba wymienić dysk na nowy.”
Czyli tyle daje gwarancji. To nie oznacza, że po tym czasie należy dysk wymienić, tylko że jest zalecane. To z całą pewnością nie oznacza, że dysk nie utrzyma danych dłużej. Miałem w życiu różne komputery i nie wymieniałem w nich dysków, niektóre z nich dłużej niż pięć lat. Najwięcej problemów miałem z dyskiem w komputerze z lat 90-tych, który to dysk siedział w kieszeni wymiennej i regularnie był zabierany do wycieczki, więc zdarzało mu się być poobijanym w autobusie albo zaliczyć upadek na asfalt z kilkudziesięciu centymetrów. Ale i tak miał raptem trochę bad sectorów.
” Poza tym dysk to komputer: w środku jest caŁy system operacyjny, pamięć flash, dane kalibracyjne dla każdego konkretnego talerza i jedynie konkretny zestaw może je odczytać, milion rzeczy moze pójść nie tak.”
Chyba że to dysk SSD i nie ma talerzy. Ale nikt nie przeczy, że milion rzeczy może pójść nie tak. Milion rzeczy może pójść nie tak w dowolnym momencie, nawet ze świeżo kupionym dyskiem. To nie oznacza, że dysk po pięciu latach od razu staje się bezużyteczny.
Do tego mamy różne mechanizmy pozwalające na odzyskiwanie danych nawet przy uszkodzonych dyskach, chociażby macierze Raid.
Mogłeś napisać, że prawdopodobieństwo uszkodzenia danych rośnie znacząco po pięciu latach i tylko tyle zalecają producenci. Ale napisałeś coś co sugeruje, że dane z dysków znikają po pięciu latach magicznie.
@rw
> Nie rozumiem.
Perplexity w trybie 'badania’ wyrzuca z siebie bardzo dobre objaśnienia do komentarzy unikoda:
Wyjaśnienie komentarza
Komentarz odnosi się do rzeczywistego kryzysu z 2021 roku spowodowanego kryptowalutą Chia, która masowo pochłaniała dyski twarde na całym świecie. Oto rozpisanie elementów:
Stefan Dziembowski i projekt „Proofs of Space”
Stefan Dziembowski to polski kryptograf z Uniwersytetu Warszawskiego. W 2015 roku opublikował przełomową pracę pt. „Proofs of Space” (razem z Sebastianem Faustem, Vladimiriem Kolmogorowem i Krzysztofem Pietrzakiem). Praca opisywała teoretyczną koncepcję „proof of space” – systemu, w którym zamiast obliczeniowej mocy (jak w Bitcoinie), bezpieczeństwo sieci blockchain byłoby zapewniane przez dedykowaną pojemność dyskową. Była to całkowicie teoretyczna i akademicka propozycja.
Bram Cohen i kryptowaluta Chia
Bram Cohen – twórca protokołu BitTorrent – wpadł na pomysł praktycznej implementacji koncepcji Dziembowskiego. W 2021 roku uruchomił Chia Network, blockchain wykorzystujący „proof of space” zamiast tradycyjnego „proof of work”. Chia zamiast wymagać mocy obliczeniowej, wymagała dedykowania pojemności dyskowej – teoretycznie powinno to być bardziej przyjazne dla środowiska.
Kryzys spowodowany przez torrentowe pobieranie na dyski
Kiedy Chia Network została uruchomiona w marcu 2021 roku, nastała nieoczekiwana fala popytu na dyski twarde. W maju i czerwcu 2021 r. dyski twarde znikły z magazynów w całej Azji, zwłaszcza w Chinach. Ceny dysków wzrosły o ponad 60%. Naukowcy, laboratoria badawcze i inne instytucje zmagały się z niedoborami. Kryptowaluty wymagały zapisywania gigantycznych ilości danych (tzw. „plotów”) na dyski, zużywając je w procesie.
Komentarz humorystycznie łączy to z protokołem BitTorrent (stąd „od torrentów”) – zarówno BitTorrent jak i Chia zostały stworzone przez tego samego człowieka (Brama Cohena), ale pierwszy jest sieciowym protokołem do dzielenia plików, a drugi to projekt blockchain.
„Nawiedzeni doktoranci Kellisa” i przechowywanie chemiczne
Manolis Kellis to profesor biologii obliczeniowej na MIT. Jego laboratorium badało pamięć długotrwałą w mózgu, w tym jak neurony przechowują informacje za pośrednictwem modyfikacji chromatyny i zmian chemicznych. Jego zespół pracował nad zrozumieniem, jak pamięć jest „kodowana chemicznie” w strukturach mózgu.
Komentarz humorystycznie sugeruje, że podczas gdy Chia „zapełniała” dyski twarde, doktoranci Kellisa snuli „wizje” alternatywnych metod przechowywania danych – teoretycznie w oparciu o przechowywanie chemiczne, podobnie jak mózg przechowuje pamięć. Istnieją rzeczywiście badania nad przechowywaniem danych w DNA, co byłoby przechowywaniem chemicznym – ale to jest całkowicie inna, spekulacyjna idea niż zdecentralizowana kryptowaluta wymagająca dysków twardych.
Połączenie humorystyczne
Komentarz żartuje, że kryzys z Chia skłonił naukę do myślenia o całkowicie nowych paradigmatach przechowywania danych – zamiast dalej gromadzić dyski twarde, może lepiej byłoby skopiować naturę i przechowywać dane chemicznie w DNA, tak jak mózg przechowuje pamięć. To pochlebna krytyka absurdalności sytuacji, w której akademicka teoria (Proof of Space Dziembowskiego) poprzez praktyczną implementację Cohena (Chia) doprowadziła do rzeczywistych niedoborów infraborów infrastruktury.
@izbkp
No i to jest wreszcie pożyteczne zastosowanie AI. A już się przyzwyczaiłem, że z komentarzy kolegi Unikoda rozumiem może jakieś 10%.
Przepraszam za odpisywanie z opóźnieniem (9 godzin wcześniej niż w Polsce).
@procyon
„metoda przechowywania mózgu w bardzo niskich temperaturach”
Bardzo niskie temperatury (poniżej 130oC) to asekuracyjnie, gdyby konieczność była przechowywania przez tysiące lat. W tej temperaturze tkanka przechodzi w stan stały (szklisty, tj. nie ma lodu dzięki obecności krioprotektantów). Dla setek lat nie jest konieczna tak niska temperatura przechowywania, ale planujemy dalej niską—ale nie tak niską, czyli jeszcze w stanie ciekłym—„dla pewności”. Przez miesiące-lata tkanka jest też stabilna (w sensie, nie są obserwowane zmiany ultrastruktury) w temperaturze pokojowej.
„celem jest cyfrowy backup”
Tak, to jest ostateczny cel, ale technologia odczytu jest oproacowYWana, ale nie oprocowana. Jak pisałem, ultrastrukrurę komórek można obecnie zdygitalizować dla objętości tkanki mózgu o 6 rzędów wielkości mniejszych, niż objętość mózgu człowieka.
„…mrozicie”
Rapiery: zamrażanie (jako termin techniczny) implikuje kryształy lodu, „zeszklenie” byłoby lepsze. Ale zdaje sobie sprawę, że „zeszkalacie mózgi” brzmi mało potocznie.
„wy tylko…”
Analogia: zwoje z Herkulanum. Zachowane w I w., odkryte w XVIII w. Razem więc przechowane prawie 1000 lat i (ponownie) odczytywane stopniowo dopiero teraz.
@izbkp / Unikod
„przechowywać dane chemicznie w DNA, tak jak mózg przechowuje pamięć”
Tutaj Perplexity daje coś sprzecznego z konsensusem w neuronace (co nie znaczy, że nie znajdzie się jakaś publikacja naukowa, która coś takiego opisuje).
Jest bardzo mało prawdopodobne, żeby pamięć w mózgu była przechowana w strukturze makrocząsteczek (DNA, RNA czy białkach), w sensie struktury pierwszorzędowej (sekwencji), zmianach typu metylacje itp. Cała nasza wiedza o biologii molekularnej mówi, że odczyt takiej informacji jest za wolny (o rzędy wielkości) niż czas odczytu wspomnień czy dostępu do wyuczonych umiejętności. Ale jak ktoś się upiera, to (uwaga, prywata) nasza metoda też zachowuje takie „dane”.
@Piotr Kapis / Unikod
trwałość danych na dyskach twardych
I chyba czym innym jest czas, przez który dane są stabilne na używanym dysku, a czym innym, jeśli taki dysk by odpowiednio zarchiwizować (np. umieścić w klatce Faradaya, w niskiej temperaturze, itp.—nie znam się).
@izbkp
Dziękuję bardzo za inspirację, będę z tego korzystał.
@vlak
„Konkretne liczby oczywiście mogą się różnić, na przykład ze
względu na temperaturę, ja dałem tu wartość 0.8, czyli „bez
szaleństw”. papuGaPT2 była opublikowana w 2021, więc oczywiście nie
mogła „pamiętać” bitwy pod Kurachowem. We wszystkich 3 przypadkach
działa dokładnie ten sam mechanizm, który czasami (nie zawsze)
produkuje prawidłową odpowiedź. Osobiście nie bardzo umiem sobie
wyobrazić, co mogłoby znaczyć „pamiętanie”, żeby otrzymać spójną
interpretację tych trzech przypadków.”
Interpretacja jest taka, ze testujesz generator liczb pseudolosowych,
ktory jest wykorzystywany przez oprogramowanie odpowiedzialne za
inferencje. W ogolnosci mozna tak ustawic parametry tego procesu, ze
kazdym razem dla danego zapytania otrzymasz dokladnie ta sama
odpowiedz.
@Borys Wrobel
„I chyba czym innym jest czas, przez który dane są
stabilne na używanym dysku, a czym innym, jeśli taki dysk by
odpowiednio zarchiwizować (np. umieścić w klatce Faradaya, w niskiej
temperaturze, itp.—nie znam się).”
Jaki wolumen danych jest szacowany per case?
@nmi
„Jaki wolumen danych jest szacowany per case?”
To chyba pytanie nie do mnie, tylko do hipotetycznego archiwisty, który chciałby archiwizować przez stulecia dyski twarde.
@ Korba
Okrutnicy, potraktowaliście biednego Unikoda jak ekspedycja edeńska dubelta.
Cursed discourse, ale ktoś musi obniżać poziom odlotu w tym wątku.
@wo
Jak tam przeświadczenie o zastraszeniu demokratycznych wyborców przez republikanów po świeżutkiej jatce wyborczej jaką ci republikanie zaliczyli? Czy te głosy przestraszonych republikanów już zaczynają być słyszalne, czy wciąż nie?
@ak
Tak! Też je już słyszę (z ogromną radością oczywiście). Ale skoro pan tak czyha na ten temat, poczyhałby pan jeszcze troszkę aż będzie bardziej ontopiczny?
Jasne, byłem ciekawy reakcji i szczerze, jestem miło zaskoczony. Lurk-mode back on.
@Artur Król
Jak wychynąć z czyhania: Wyniki wyborów w USA były rozczarowujące. Republikanie mają dziwny opór przed odpowiedziami typu „nie wiadomo, brak danych, źródła milczą”. Niczym nieprzygotowany student, zawsze udają że wiedzą. Ich prezydent (plus stojąca zastępstwami administracja, w której geografii uczy katecheta) przyniesie USA więcej szkody niż pożytku. Ale czy republikanie mogą rządzić dużymi miastami? Czy zamiast karmić kandydata na burmistrza korpusem list dialogowych Woody’ego Allena, wystarczy korpus gestów Rudy’ego Giulianiego? Setki kandydatów (np. kandydat Jaki w Warszawie) to robią, ze dwa czy trzy razy uszło im na sucho. Ale nie w Nowym Jorku.
@ergonauta
Nie chcę naruszać cierpliwości WO, więc tylko jedno wskazanie – tu nie chodzi o NY (choć lovciam Mamdaniego itp.) To było niebieskie tsunami. Spójrz na Virginie. Spójrz na sam rozkład głosów w całym kraju, przesunięcie w błękit rzędu niewidzianego we współczesnej Ameryce na tym poziomie wyborów. W Teksasie przesunięcie było takie, że wszystko wskazuje, że (jak niektórzy republikanie już przestrzegali latem, co wskazywałem) cała ta zabawa z gerrymanderingiem im wyjdzie bokiem, bo ich nowe okręgi działały na rzecz republikanów tylko jakby latynosi głosowali na nich podobnie, jak w prezydenckich. A tu mamy totalny zwrot od tego i nie dość, że mogą stracić te wszystkie okręgi i szereg osłabionych starszych, to jeszcze zaraz Kalifornia im dodatkowo dowali (a szereg innych stanów kontrolowanych przez republikanów zaczął mówić o wycofaniu się z będącego w trakcie gerrymanderingu). Mamdani jest głośnym punktem (i zajebistym typem wedle wszelkich dostępnych danych), ale prawdziwy strach w republikanach budzą zupełnie inne aspekty wyniku.
Hmmm, czy nie da się pójść z gerrymanderingiem o jeden kroczek dalej i wytyczać granic okręgów wyborczych po głosowaniu?
Gerrymandering działa jak okręgi jednomandatowe dając nieproporcjonalną dystrybucję wyników, ale nic nie da gdy poparcie się załamuje poniżej pewnego (wciąż sporego) poziomu. Bjelkemandering na 27 lat zabetonował władzę Queensland National Party, aż nastąpił wipeout po którym przestała istnieć.
Coś musi być na rzeczy bo mój kolega z pracy, teksańczyk choć z pochodzenia spod Detroit, ostatnio stwierdził że pierwszy raz w życiu ma zamiar zagłosować na demokratów. A facet kolo 60tki więc zaczynał głosować pewnie jeszcze za Reagana
Hold your horses, gdyby ktoś nie pamiętał, to Trump próbował zrobić zamach stanu po pierwszej przegranej. Nie wyszło mu tylko dlatego, że miał vice Pence’a + paru zasiedziałych Chucków McGillów w partii. Dziś ma vice ruskiego agenta i MAGAjugend. Więc nie stawiałbym za wiele na jakieś fale takich czy innych kolorów w midtermsach. No chyba że na kolorową rewolucję, jak przystało na kraj Trzeciego Świata.
Agenta południowoafrykańskiego oligarchy. To trochę to samo zagadnienie co wtedy. Pence miał swoje plany, jako chrześcijanski fundamentalista, które Trump zawiódł (a na przykład Biden nie – nie walcząc z wyrokiem ani składem Sądu Najwyższego). MAGAjugend to kura bez głowy, a już dzisiaj Richard Hanania, czy ruski agent Tucker Carlson razem z Fuentesem zastanawiają się co po Trumpie. ICE Gestapo funkcjonuje bo można sobie naprawić zęby i legalnie poboksować nauczycieli zawijanych z przedszkoli, im nic nie grozi po zmianie władzy niestety więc może też nie będą o nią walczyć. Wojsko już poczuło shutdown po kieszeni, a histeryczną reakcja na 5 sklepów spożywczych obiecanych przez Mamdaniego może dać do myślenia co ich czeka dalej (taką samą państwową sieć sklepów prowadzi administracja weteranów).
@Tomasz Larczyński
„Trump próbował zrobić zamach stanu po pierwszej przegranej. Nie wyszło mu tylko dlatego, że miał vice Pence’a + paru zasiedziałych Chucków McGillów w partii.”
Lista powodów, dla których Trumpowi nie udał się zamach stanu nie jest taka krótka.
To jest 350-milionowy kraj rozłożony na 10 milionach kilometrów i oparty na 250 latach może i mocno kulawej, ale demokracji. Podobnie śmiesznie wyglądają podobne diagnozy Rosji: że wojna się zaczęła, bo ktoś czegoś tam nie sprawdził, albo że wojna się skończy, jak się wystraszą zgaszonego światła w Moskwie. Oczywiście, sam Trump uwielbia taką narrację (jakby ją produkowała AI): kiedy skończy się wojna w Ukrainie? kiedy Trump powie Putinowi, żeby już przestał. Natomiast ludzki umysł ma tę przewagę nad maszyną, że wie, jak mało wie o dużym świecie.
Polityka gospodarcza Trumpa pokazała, że amerykańska gospodarka wiele potrafi znieść, nawet ustalanie wysokości ceł przy pomocy koła fortuny. Niemniej jawnego zamachu stanu jednak mogłaby nie wytrzymać. Wszystko ma swoje granice. Ktoś te T-notes musi jednak kupować.
@ergonauta
„oparty na 250 latach może i mocno kulawej, ale demokracji”
Nie wyprowadzałbym głównej przesłanki z faktu, że coś trwa 250 lat. To jest oczywiście czynnik stabilizujący, ale może być niewystarczajacy. 50, 100, 250 lat temu nie było takich nierówności społecznych (w każdym razie wśród uprawnionych do głosowania) i jednocześnie soszialowego, w dużej mierze sterowanego z zewnątrz prania mózgu. Oba te czynniki były słabsze 5 lat temu. „The Institute for Policy Studies calculated that the average CEO/worker pay ratio of „Low-Wage 100″ firms widened from 560:1 in 2019 to 632:1 in 2024” (artykuł „Income inequality in the United States” z Wiki).
@Tomasz Larczyński
„To jest oczywiście czynnik stabilizujący, ale może być niewystarczajacy.”
Jasne, że tak. Że to może nie wystarczyć. Jednak odwracając Trumpa ogonem: nie wieszałbym losu USA na włosku „mieć vice Pence’a + paru zasiedziałych Chucków McGillów w partii.”, bo to się wydaje dużo bardziej niewystarczjące. Jakoś te czołgi, którymi Trump groził Nowemu Jorkowi, nie buszują po Brooklynie, nie rozjeżdżają Manhattanu.
Myślę, że zamach stanu, taki rozumiany po wojskowemu, nie zadowala mentalnie Trumpa (podobnie jak u nas Kaczyńskiego), on chce się czuć najlepszym prezydentem w historii USA, przywrócicielem wielkości Ameryki. Wystarczy sobie odciąć kontakt z rzeczywistością i obwieszczać na socialach: „So many Fake Polls are being shown by the Radical Left Media, all slanted heavily toward Democrats and Far Left Wingers … Fake News will never change, they are evil and corrupt but, as I look around my beautiful surroundings, I say to myself, 'Oh, look, I’m sitting in the Oval Office!”.
Pierwszy zamach stanu się często nie udaje. Drugi się Trumpowi pewnie uda, również dlatego, że prawie nikt wśród amerykańskich elit politycznych nie ma woli walki z nim – jak pokazała wczorajsza kapitulacja Demokratów w Senacie USA.
@rw
„prawie nikt wśród amerykańskich elit politycznych nie ma woli walki z nim”
Coś w tym jest. Ostatnio oglądałem bardzo wnikliwy, pełen relacji uczestników, dokument o udanym zamachu stanu – o rewolucji goździków w Portugalii. Po pierwsze, ogromna ilość czynników musiała się zbiec, w tym kwietniu 1974, żeby zamach się udał (także w sensie: by był w miarę bezkrawy), po drugie, wśród tego zbiegu okoliczności wiele mieściło się w ułamkach sekund, w jednej spontanicznej decyzji (załoga prorządowych żołnierzy jest w czołgu na placu, ma jechać w stronę tłumu, nagle coś tam słyszą i decydują się otworzyć właz i wyjść, no to załogi innych prorządowych czołgów też wychodzą), no i po trzecie, brak motywacji – i do walki w obronie Kogoś lub Czegoś, i do przelewania krwi (m.in. dlatego stan wojenny jako zamach stanu udał się Jaruzelskiemu – można było nienawidzić ZOMO, ale nikt nie czuł nienawiści do chłopaków z LWP).
Mój ulubiony hipotetyczny scenariusz: Trump robi przewrót, nikt nie ma siły z dziadem walczyć, zresztą o co, skoro demokracja w erze bigtechów to farsa, więc nikt nie ginie, Trump ogłasza sie casarzem USA, duże miasta po kolei deklarują niepodległość (N.Y. się obmurowuje, taka odwyrtka „Ucieczki z Nowego Jorku”), US Army odmawia zbrojnego szturmu, więc Orban doradza Trumpowi, by poprosił o bratnią pomoc Rosję, Putin mówi tak, ale że to w cholerę daleko, na co Trump, że zapłaci Alaską, więc Putin wycofuje wojska z Ukrainy i zaczyna organizować konwoje z Murmańska w przeciwną niż onegdaj stronę. Trochę to potrwa, a tymczasem dzięki Trumpowi – wojna w Ukrainie dobiega końca.
@ergonauta
No ale po drodze z Alaski jest Kanada.
Skoro jest nowa notka, to wrócę do tematu. Długo się czaiłem, żeby się odlurkować, dumając, czy miałbym coś do powiedzenia z racji tego, że akurat mam pracę, która polega na rozwijaniu narzędzi wykorzystujących uczenie maszynowe w humanistyce cyfrowej. Moja działka to badania historycznojęzykowe.
Sęk w tym, że również ciężko mi było znaleźć naprawdę użyteczne zastosowania akurat dla tego czegoś, co teraz Big Techy wsadzają do każdej lodówki. Właściwie tylko jedno mi przychodzi do głowy: dopiero ChatGPT był w stanie przetłumaczyć mi list w gdańskiej odmianie dolnoniemieckiego z 18 wieku. Przekład daleki od doskonałości, ale do moich celów mi zupełnie wystarczył. (Przy czym, idę o zakład, że żaden super-hiper AI z najwyższej półki nie znajdzie źródła z listem w tym języku, chociaż jest online z OCRem: link to digitale-sammlungen.de)
Mówię o zastosowaniach prywatnych, bo w tworzonych przeze mnie narzędziach nigdy w życiu bym tego nie zaimplementował. Byłoby to nieodpowiedzialne, nieetyczne, a w przypadku źródeł spoza domeny publicznej – po prostu nielegalne. Poza tym ogólnie unikam modeli generatywnych. Za naprawdę użyteczne uważam wykrywanie, segmentację, klasyfikację, itp.
Z początku zdecydowanie protestowałem, kiedy ktoś mówił, że pracuję nad Sztuczną Inteligencją. Nieprawda! To uczenie maszynowe! Cały ten Deep Learning to tak naprawdę modelowanie statystyczne na sterydach, a AI to dla mnie Wintermute/Neuromancer. Dopiero jak przyszedł ostatni hajp, a razem z nim budżet na wdrożenie „jakiegoś AI”, to się przemogłem i zgłosiłem, że mam gotowy projekt…
Moja praca to w 5% modele ML, a w 95% dane. Wychodzę z założenia, że aby wytrenować dobry model, potrzebne są dobre dane. Jeżeli coś oznaczam jako Gold Truth, to znaczy, że sprawdziła to jakaś kompetentna osoba. To robota żmudna i odpowiedzialna – i powinna być odpowiednio opłacana. Nie zgodziłem się na propozycję, żeby robili to za darmo studenci w ramach zaliczania praktyk.
OpenAI zastosował podejście dokładnie odwrotne. Co prawda model językowy trenuje się automatycznie, przerabiając korpus tekstów na miliardy ćwiczeń typu „uzupełnij brakujący wyraz”, ale żeby wytrenować choćby filtry bezpieczeństwa, potrzebny już jest ogromny koszt ludzki. I tu robotę odwalali np. Kenijczycy pracujący po dziewięć godzin dziennie za półtora dolara za godzinę, czytając różne toksyczne gówna i przypisując etykiety typu „przemoc seksualna”. (link to time.com)
Kolejna rzecz, do której przywiązuję wagę, to transparentność, bo bez niej nie da się mówić o naukowej weryfikowalności takich modeli. A dziś sama nazwa „OpenAI” brzmi jak ponury żart.
Na koniec powiem tylko, że widzę ogromny potencjał w tzw. AI. Wiele tych życzeń – mam na myśli zwłaszcza pomoc w researchu – jest możliwych do spełnienia, i to nie przez te gargantuiczne czarne skrzynki z Doliny Krzemowej, ale przez o wiele mniejsze, ale skuteczne, przejrzyste modele, które naprawdę można zrozumieć, rozwijać – i dla odmiany robić to legalnie i etycznie.
@wo
„Ciekawe czy jest jakiś wyspecjalizowany LLM do odcyfrowywania dziewiętnastowiecznej cyrylicy (hm, Ausir może wiedzieć?.”
@ausir
„Rzeczywiście istnieją specjalne modele AI (nie tyle „LLM”) do odczytu dawnej cyrylicy, raczej płatne.”
W Transkribusie jest parę modeli, zarówno do druku, jak i pisma ręcznego. Niewielkie ilości można odczytać w ramach darmowej subskrypcji: link to transkribus.org
Nie wiem, jak z jakością, dawno tam nie zaglądałem, ale to stara architektura, jeszcze na sieciach LSTM. Pewnie ktoś już zrobił lepsze na transformerach, ale to już by trzeba grepować gzipy.
A z komercyjnych płatnych to ABBYY wspiera „Russian (Old Spelling)”, ale tylko druk.
@NUL
„Moja praca to w 5% modele ML, a w 95% dane. Wychodzę z założenia, że aby wytrenować dobry model, potrzebne są dobre dane.”
+100 Tak z reguły jest, gros roboty to szukanie i czyszczenie danych.
Mi właśnie udało się zaprząc AI (konkretnie Claude Sonneta 4.5) do napisania unit testów, czyli roboty która jest mozolna, nudna, w dużej części mechaniczna, a dla utrzymania kodu konieczna.