AI: ma che succede adesso?

Uriel Fanelli

27 Jan 2025 • 6 min read

Lavorare per un'azienda che ha deciso di diventare "full-AI" e fa le conferenze virtuali con il digital twin del boss (il quale ha non-scritto il testo insieme ad una AI e si e' fatto fare le slide da copilot) significa che ieri e' cascato un asteroide (dal sapore fritto che e' tipico degli asteroidi cinesi) per via di deepseek. Ma la cosa peggiore e' che nessuno degli espertoni se lo aspettava. Perche' sia chiaro, se voi dichiarate che la vostra azienda diventa Full-AI, tutti diventano improvvisamente esperti di AI. Ma se anche parliamo di un'azienda di consulenti, chi non si e' mai ma proprio mai occupato di cose simili difficilmente capira' il problema e quindi sapra' cosa aspettarsi. Chi invece parla di reti neurali da una ventina d'anni sul suo blog e' visto come il Gandalf della situazione, che si' e' un mago, ma sticazzi se capisco cosa dice. Quella roba e' magia nera. E questa e' la mia figura nell'azienda, in cui tutti ma proprio tutti sanno cosa sia l' AI, ma sono pochi a capire che diavolo stiamo facendo. Provo a spiegarlo. Cosi' vedo se ho capito io. Tutto sta nella capacita' di trasformare un'insieme di parole in un vettore di numeri. Questo vettore n dimensionale,ovviamente, indica un punto dello spazio. A quel punto, con tecniche tensoriali (o matriciali che dir si voglia, a seconda della formazione) si usano tecniche assolutamente primitive - ma assolutamente algebriche, cioe' geometriche - per cercare i punti vicini al vostro prompt, e generare una risposta. Il fatto che tutte queste tecniche siano tensoriali e/o geometriche (ok, posso rivelarvelo: algebra astratta e geometria sono la stessa cosa), significa che una GPU, la scheda grafica, che e' specializzata nel fare i conti e produrre cose geometriche (videogiochi, per esempio) funziona benissimo per fare questi calcoli. ### qual'e' la trappola? La trappola e' che queste tecniche per generare l'embedding sono estremamente primitive. Almeno sul piano matematico. Lo so che vi sembrera' strano sentir parlare dello stato dell'arte dell' IT come "primitivo", ma intendo dire che appena si e' visto che questa roba funzionava... la si e' buttata sul mercato. Per battere la concorrenza. E non si e' fatto un ENORME lavoro di ottimizzazione degli algoritmi che poteva essere fatto se si fosse aspettato un po'. Ma il TTM (time to market) e' tiranno quindi si e' buttata fuori la cosa cosi'. ------------------------------------------- Facciamo un esempio: vogliamo calcolare pi greco. Il nostro nuovo prodotto calcola pigreco. Siccome abbiamo fatto il liceo, useremo la serie di Leibniz, nome che piaceva anche al prof di filosofia. Possiamo proporre tre metodi, in ordine di efficienza. 1. Gauss-Legendre (AKA Brent-Salamin) a₀ = 1, b₀ = 1/√2, t₀ = 1/4, p₀ = 1; aₙ₊₁ = (aₙ + bₙ) / 2; bₙ₊₁ = √(aₙ · bₙ); tₙ₊₁ = tₙ − pₙ · (aₙ − aₙ₊₁)²; pₙ₊₁ = 2 · pₙ; π ≈ (aₙ₊₁ + bₙ₊₁)² / (4 · tₙ₊₁) 2. Ramanujan's applicato 1/π = (2√2 / 9801) ∑(k=0 to ∞) of [ (4k)! (1103 + 26390k) ] / [ (k!)⁴ · 396^(4k) ] 3. Leibniz serie π/4 = ∑(k=0 to ∞) of [ (-1)ᵏ / (2k + 1) ] Qual'e' il migliore? | Metodo | Efficienza | Convergenza | Quando usarlo | |-----------------------|------------------|-------------------|----------------------------------------| | Gauss-Legendre | Altissima | Quadratica (= apre culi) | Precisione molto alta, tempi rapidi | | Applicazione serie di Ramanujan | Media | Rapida | Buona precisione, non massima efficienza | | Serie di Leibniz | Molto bassa | Lentissima | Solo per scopi didattici o bassa precisione | Ma tutti e tre sono metodi validi. Il problema e' che con Gauss-Legendre arriverete subito ad un risultato che congli altri metodi raggiungete piu' lentamente. Immaginate che il vostro prodotto sia "calcolare pigreco", e che voi usciate sul mercato, per essere i primi, con una serie di Leibniz. Bello. Ma adesso i concorrenti fanno la stessa cosa, e voi dovete competere. Allora usate l'approccio americano, "tira soldi sul problema sino a quando non e' risolto", e costruite un intero datacenter con una centrale nucleare dedicata. Andrete piu' veloci degli altri, ma state sempre usando un metodo lento. Adesso arriva quello che non ha soldi, ma ha letto un sacco di libri. E vi usa Gauss-Legendre (noto anche come Brent-Salamin , ma ragazzi, certe volte i nomi hanno un effetto comico) . Col risultato che su una calcolatrice Texas Instruments da liceo arriva prima del vostro supercomputer nucleare. (in questo esempio, lo fa sul serio!). Ovviamente, se siete quelli che avevano cercato di risolvere il problema tirandogli addosso dei soldi, ci rimanete male. ------------------------------------ Il gandalf maledetto che gira per l'azienda con la felpa "See You in Valhalla", invece ,(cioe' io) e' cosciente del fatto che stiamo usando un metodo brutale e che quindi prima o poi verra' ottimizzato. Non posso dire in anticipo se verra' ottimizzando usando la tecnica incredibilmente estetica di Ramanujan [1], o con Gauss-Legendre (Brent-Salamin), o usando che so io il metodo di Montecarlo, o altri. ### Ma se entrate in una competizione per pigreco col metodo di Leibnitz, qualcuno vi superera' , e superera' anche il vostro superdatacenter nucleare, semplicemente perche' non ha saltato le sue lezioni di matemarica. Questo ve lo posso dire con certezza. Ed e' quello che e' successo. Mentre gli americani tiravano soldi sul problema, pensando di risolverlo in modo di rendere inarrivabile la soluzione perche' era troppo costosa, i cinesi hanno chiamato dei matematici geometristi e hanno trovato un modo migliore di generare il modello. ### E non era difficile, e non siamo ancora alla fine della storia, perche' di algebra astratta ne viene scritta moltissima, quindi c'e' ancora spazio per il geometrista geniale che ha studiato una tecnica numerica in piu'. Molto spazio. --------------------------------------- Perche' gli americani sono andati con la filosofia "lancia soldi sul problema"? Perche' pensavano di mantenere la supremazia dei modelli sfruttando il fatto che gli altri paesi non possono investire cifre simili (per esempio, l' Europa) o che non abbiano le GPU adatte per via di alcuni blocchi commerciali (per esempio, la Cina). Tenete conto di una cosa. Nel mondo dell' Intelligenza artificiale ci sono due fasi. - Apprendimento , o addestramento. - Esecuzione. L'esecuzione di un modello oggi e' relativamente semplice. Se avete un computer adatto a giocare ai videogames professionalmente, non dovrebbe essere difficile scaricare una cosa dall'interfaccia semplice, come GPT4all, e avrete la scelta del modello da installare, potrete usare quello di META, cioe'LLama, e molti altri che diventano opensource. E capite che se potete farlo in casa, la fase di esecuzione non e' costosa. Potrete cosi' caricare le vostre bollette nella Knowledge base, e chiedere di capire quanto pagate davvero il gas, se usate un modello reasoning, che di solito finiscono per -R1. La fase davvero costosa, invece, e' digerire tutta la massa di dati per l'addestramento. Si parlava di cento milioni di dollari per addestrare un modello avanzato. Ma questo usando la tecnica brutale, e un sacco di calcolatori,metodo scelto per tener fuori dalla competizione i povery. Ma la matematica se ne fotte , e se c'e' un metodo piu' veloce, procede. Conoscendo di vista il mondo dei geometristi e degli algebristi, e' assolutamente probabile che i cinesi abbiano solo graffiato la superficie del problema. Non so che diavolo di tecnica abbiano inventato, o quale teorema abbiano applicato. Ormai di teoremi se ne dimostrano 150.000 ogni anno, e' impossibile seguirli. La complessita' di calcolo in quel mondo tende a crescere, nelle condizioni sbagliate, di N^N, per poi crollare semplicemente tenendo conto che, "ma si, in questo caso il determinante e' zero e non dobbiamo fare calcoli". O roba del genere. E poi dai, che schifo, un isomorfismo!!!! -------------------------------- Le conseguenze. Questo trasforma in merda l'idea che se qualcuno investe di piu', avra' i risultati migliori. Quando la gente giudica il potenziale di crescita di una zona, tipo Cina o Europa o USA, va a vedere "quanto investono nella tal cosa". Ma probabilmente le ottimizzazioni fatte dai cinesi sono uscite da una lavagna, o da un foglio di carta. E delle buone menti, Ca va sans dire. Il panico e' dovuto proprio a questo: - c'e' ora consapevolezza che c'e' ancora molto da ottimizzare. - c'e' ora consapevolezza che gettare soldi sul problema non e' garanzia di vittoria sul mercato. Questo spaventera' principalmente gli investitori. A loro era stato garantito che se partecipavano ad un progetto, piu' grande era e piu' sarebbe stato dominante, e quindi avrebbe reso soldi. Ma se arriva qualcuno e dice che no, ti fotte chiunque sappia piu' algebra astratta di te, il problema diventa tragedia. Gli americani, con il loro anti-intellettualismo, non riescono a capire come 5,6 milioni di $ valgano piu' di 100 milioni se sono in mano alle menti giuste. Lo considerano una magia nera, e non scommettono soldi sulla magia nera. E da qui, il panico. Del resto, i cinesi sono comunisti, i comunisti sono amici di Satana, e quindi se ne deduce che sanno fare stregonerie. Ma specialmente, potrebbe voler dire che gli sforzi per tenere la AI in mano a pochi giocando sui costi enormi sono destinati a fallire. [1] Ramanujan accettava solo formule che lui definiva "belle". In senso estetico. Capire come diavolo e' arrivato alle cose che ha fatto e' difficilissimo.