Un video è una successione di immagini ad una certa cadenza. L'occhio umano ha come caratteristica di essere capace di distinguere circa 20 immagini al secondo. Così, visualizzando più di 20 immagini al secondo, è possibile indurre in inganno l'occhio e fargli credere di vedere un'immagine animata. La fluidità di un video è caratterizzata dal numero di immagini al secondo (in inglese frame rate), espressa in FPS (Frames per second, in italiano trame al secondo).
D'altra parte il video nel senso multimediale del termine è generalmente accompagnato dal suono, cioè da dati audio.
Si distinguono solitamente numerose grandi famiglie di "immagini animate"
Il formato PAL/SECAM (Phase Alternating Line/Sequenziale Colore con Memoria), utilizzato in Europa per la televisione hertziana, permette di codificare i video su 625 linee (solo 576 sono visualizzate dato che l'8% delle linee serve alla sincronizzazione), a 25 immagini al secondo in formato 4:3 (cioè il rapporto larghezza su altezza vale 4/3).
Ora, a 25 immagini al secondo, molte persone percepiscono una vibrazione dell'immagine. Così, dato che era impossibile inviare più informazioni dati i limiti della banda passante, si è deciso di intrecciare le immagini, cioè di inviare prima le linee pari, poi quelle dispari. Il termine "campo" designa così la "mezza-immagine" formata sia dalle linee pari che da quelle dispari. L'insieme costituito dai due campi è detto trama intrecciata. Quando non vi è intrecciamento si usa il temine trama progressiva .
Grazie a questa procedura detta "intrecciamento", il televisore PAL/SECAM visualizza 50 campi al secondo (ad una frequenza di 50 Hz), ossia 2x25 immagini in due secondi.
La norma NTSC (National Television Standards Committee), utilizzata negli USA e in Giappone, usa un sistema di 525 linee intrecciate a 30 immagini/sec (quindi una frequenza di 60Hz). Come nel caso del PAL/SECAM, l'8% delle linee serve a sincronizzare il ricettore. Così, dato che l'NTSC visualizza un formato di immagine 4:3, la risoluzione reale è di 640x480.
Il video digitale consiste nel visualizzare una successione di immagini digitali. Dato che si tratta di immagini digitali visualizzate ad un certo ritmo, è possibile conoscere la capacità di banda necessaria per visualizzare un video, cioè il numero di byte visualizzati (o trasferiti) per unità di tempo.
Così la capacità di banda necessaria per visualizzare un video (in byte al secondo) è uguale alla dimensione di un'immagine che moltiplica il numero di immagini al secondo.
Sia un'immagine true color (24 bit) con una definizione di 640 pixel per 480. Per visualizzare correttamente un video con questa definizione è necessario visualizzare almeno 30 immagini al secondo, cioè una capacità di banda uguale a :
900 Kb * 30 = 27 Mb/s
Dato che l'occhio è poco sensibile alle variazioni della crominance, la tecnica detta della sotto-campionatura in crominance (in inglese chroma subsampling), detta anche decimazione, consiste nell'eliminare delle informazioni di crominance in un gruppo di 4x4 pixel.