Il documento Big Model è una dichiarazione di intenti dei ricercatori cinesi che intendono addestrare modelli vasti. Il documento di sintesi sui modelli su larga scala è stato pubblicato da un gruppo di ricercatori cinesi. L’articolo è meno interessante per ciò che dice che per ciò che segnala: che i ricercatori cinesi ben dotati e legati al governo vogliono costruirne alcuni davvero grandi. In Occidente, i grandi modelli sono costruiti principalmente dal settore privato, mentre vengono criticati dal settore accademico. Il documento include un gruppo di accademici affiliati alle istituzioni occidentali, ma tutti hanno un asterisco accanto al loro nome che dice che è stato prodotto dall’Accademia di intelligenza artificiale di Pechino. Molti degli autori di questo documento hanno precedentemente costruito modelli su larga scala, che vanno dal modello ‘Dao’ del MoE di trilioni di parametri alla ricerca più recente sul tentativo di costruire strutture di formazione in grado di scalare fino a oltre 100 trilioni. È più come una dichiarazione di intenti di un grande laboratorio privato, come Microsoft o Google. Se gli autori di questo documento finissero per costruire modelli su larga scala, i modelli sarebbero distribuiti in modo più uniforme in tutta la Cina di quanto non sarebbero stati se non avessero collegato BAai al governo cinese. Una delle architetture molto popolari che le persone usavano per aggiungere memoria alle reti neurali, prima che il Transformer arrivasse e per lo più lo sostituisse, è il percorso dell’inventore di LS® per costruire l’intelligenza generale.. Sepp Hochreiter, il co-inventore dell’inventore di LS® traccia un percorso verso. Hopfield Networks e Graph Neural Nets sono esempi di come fornire ai sistemi capacità migliori. Le reti neurali dovranno essere sviluppate insieme a sistemi di ragionamento simbolico per superare i loro limiti intrinseci, secondo Hochreiter. Il documento di DeepMind afferma che possiamo creare modelli linguistici migliori utilizzando più dati. Hanno scoperto che addestrando un modello chiamato Chinchilla, possono battere modelli più grandi che sono stati addestrati su set di dati più piccoli. Questa intuizione cambierà il modo in cui i modelli su larga scala si avvicinano alla formazione. C’è stato un lavoro recente che consente di addestrare modelli sempre più grandi, ma la nostra analisi suggerisce che è necessaria una maggiore attenzione sul ridimensionamento del set di dati. ThearXiv è un modello di addestramento per modelli linguistici di grandi dimensioni ottimali. Il recente boom dell’arte è dovuto a modelli come CLIP. LAION-5B è un set di dati su larga scala per scopi di ricerca composto da 5,85 miliardi di coppie immagine-testo. La ricerca di base sulle proprietà generali e la sicurezza dei modelli su larga scala, che vorremmo incoraggiare con questa versione, è ancora in corso. Sarà più facile studiare la relazione tra set di dati e modelli se abbiamo artefatti aperti come LAION-5B. LAION-5B è una nuova era di DATASET multimodali aperti su larga scala. Un gruppo di ricercatori del Regno Unito ha formulato 18 raccomandazioni che potrebbero ampliare il campo di applicazione della legge sull’intelligenza artificiale dell’UE per includere più danni indiretti. La loro proposta cambierebbe il modo in cui l’atto affronta le questioni di governance estendendo il significato dei rischi al di là delle libertà e dei diritti individuali. Ci sono idee su modelli generativi, idee su memoria e ricordo, apprendimento per rinforzo e sul fatto che alcuni bit di dati hanno la forma giusta.

You may also like

Leave a reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *