Schița de curs

Introducere în modelele multimodale

  • Prezentare generală a învățării automate multimodale
  • Aplicații ale modelelor multimodale
  • Provocări în gestionarea mai multor tipuri de date

Arhitecturi pentru modele multimodale

  • Explorarea unor modele precum CLIP, Flamingo și BLIP
  • Înțelegerea mecanismelor de atenție multimodală
  • Considerații arhitecturale pentru scalabilitate și eficiență

Pregătirea seturilor de date multimodale

  • Tehnici de colectare și adnotare a datelor
  • Preprocesarea textului, imaginilor și înregistrărilor video
  • Echilibrarea seturilor de date pentru sarcini multimodale

Tehnici de reglaj fin pentru modelele multimodale

  • Configurarea conductelor de formare pentru modele multimodale
  • Gestionarea constrângerilor de memorie și de calcul
  • Gestionarea alinierii între modalități

Aplicații ale modelelor multimodale cu reglaj fin

  • Răspunsuri vizuale la întrebări
  • Subtitrarea imaginilor și a clipurilor video
  • Generarea de conținut folosind intrări multimodale

Optimizarea și evaluarea performanței

  • Metrici de evaluare pentru sarcini multimodale
  • Optimizarea latenței și a debitului pentru producție
  • Asigurarea robusteții și coerenței între modalități

Implementarea modelelor multimodale

  • Ambalarea modelelor pentru implementare
  • Inferența Scalable pe platforme cloud
  • Aplicații și integrări în timp real

Studii de caz și laboratoare practice

  • Ajustarea CLIP pentru regăsirea imaginilor pe bază de conținut
  • Instruirea unui chatbot multimodal cu text și video
  • Implementarea sistemelor de regăsire intermodală

Rezumat și pași următori

Cerințe

  • Competențe în programare Python
  • Înțelegerea conceptelor de învățare profundă
  • Experiență în ajustarea fină a modelelor pre-antrenate

Audiență

  • Cercetători AI
  • Oameni de știință în domeniul datelor
  • Profesioniști în domeniul învățării automate
 28 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite