Codecs audio, codecs vidéo et conteneurs
Par Gisles le mercredi 20 février 2008, 20:37 - * Codecs et format - Lien permanent
Depuis les quarante dernières années, la création et la diffusion de films profitent à tous. Cette technologie s'est largement démocratisée. Des caméras, aux formats VHS puis DVD et Blu-ray, la vidéo offre à chacun la possibilité de mettre en images ses récits. L'explosion de la diffusion des vidéos en ligne apportent de nouvelles opportunités, l'ambition de pouvoir travailler les éléments vidéos en commun, par la liberté de les modifier, de les reconstruire et de les partager.
Le besoin de diffuser les œuvres suggère que la technologie de distribution des vidéos ne soit ni contenue, ni enfermée par les brevets détenus par un nombre limité de société. Verrouillées par les formats de compression et de décompression propriétaires de ces firmes, les vidéos diffusées actuellement peuvent avoir à n'importe quel moment un coût financier et juridique. Ce constat pose la question des formats de compression et de décompression vidéo actuels utilisé par les constructeurs de caméra, lecteur vidéo de salon et logiciels de traitement vidéo. Ce document tente d'y répondre. La diffusion par les réseaux informatiques vidéo concernent tous citoyens, journalistes, réalisateurs, artistes, chercheurs, programmeurs et développeurs web. Plus généralement, toute personne qui diffuse de la vidéo pour une justice sociale et participe à la démocratie par les médias.
Suivant différentes raisons éthiques, la plupart des réalisateurs de film sociaux, pédagogiques, artistiques... ne peuvent être tributaire d'outils de montage logiciels propriétaires, notamment par leurs conditions de pressions financières. La pratique et la diffusion des solutions de développement OpenSource facilitent un rapide développement de ceux-ci. Leur qualité n'en étant ni moins bonne ni meilleurs. Cependant, la plupart des activistes de l'opensource utilisent les technologies Flash de la société Adobe , QuickTime d'Apple et Windows Media de Microsoft.
Ce document est un essai comparatif de solutions libres des codecs audio et vidéos, de leurs outils d'encodage, de traitements des images et du son par des solutions de montage et de lecteurs notamment dans un navigateur internet. Les évolutions futures peuvent changer les orientations de développement, il n'est donc indiqué que les logiciels fonctionnels à cette heure et les perspectives d'évolutions.
Encodage des médias audio et vidéo
Avant de vous lancer dans l'encodage d'un fichier audio-vidéo, ayez toujours en tête pour quelle finalité. L'objectif final vous aide à savoir comment procéder, la méthode à utiliser. Que ce soit pour le divertissement sur une PSP, lecteur DVD, l'envoi par mail, par réseau quelconque, l'archivage pour une future édition, ou tous simplement lire la vidéo sur un ordinateur obsolète, vous devez connaître le format qui assure la livraison. Pour toutes ces raisons et beaucoup d'autres, la finalité engendre des procédures bien différentes.
En exemple, le mode d'emploi d'un lecteur DVD-BluRay de salon lié à la prise péritel ou sa nouvelle norme HDMI (High Definition Multimedia Interface) vers le téléviseur précise les fichiers acceptés en lecture comme le MP3, VCD ou DVD. Il annonce également que les supports lus sont de type CD -R, DVD -R, DVD +R et un disque de données MP3. Sur ces informations, il est possible de configurer le fichier audio-vidéo original incompatible avec le lecteur DVD afin qu'il le devienne. Supposons que l'objectif est de créer un fichier audio-vidéo dont la destination est la lecture sur un ordinateur, la configuration serait bien différente.
Le résultat final possède donc la possibilité d'être lu par un support matériel X et rejeté par d'autres matériels. La configuration d'un fichier audio-vidéo nécessite l'apprentissage d'une terminologie et des méthodes.
Partie I : La terminologie et la méthode
Un fichier audio-vidéo, ou fichier film, comprend trois principaux éléments, le conteneur, le codec et le signal audio-vidéo. Certaines personnes parleront de format pour faire référence au conteneur ou de l'extension. Par exemple un «*.AVI» est un conteneur, «MPEG2» est un conteneur, Quickime «MOV» est un conteneur et «WMV» est un conteneur. Tous ces conteneurs détiennent deux codecs, un pour l'audio et un pour la vidéo. Le codec est une abréviation de "Compression - Decompression". Lorsque vous enregistrez, encodez, transcodez ou re-compressez des signaux audio-vidéo, vous les compressez. A la lecture des signaux audio-vidéo compressés, vous les décompressez. Depuis toujours si un conteneur utilise tels codecs pour le transport des signaux audio-vidéo, la machine hôte de lecture doit posséder les même codecs pour les lire. Si ce n'est pas le cas, le message irritant apparaît « cannot play the file » et signifie qu'un ou des codecs requis pour la lecture sont manquants.
Il est donc important de connaître les types de codecs et de conteneurs afin d'assurer une portabilité de lecture vers le ou les destinataires. Hors tous les codecs ne fonctionnent pas sur toutes les machines. Cette cause peut être du au système d'exploitation (MAC vs PC), ou matériel de lecture (lecteur DVD, vidéo, téléphone portables) non livré avec les codecs désirés. Pour obtenir les codecs, certains sont installables et multi-platerforme.
Les codecs sont livrés avec des options de qualité d'encodage. La meilleure qualité audio et vidéo a pour résultat un poids de fichier plus lourd et demande au lecteur plus de puissance en calcul, de mémoire et de vitesse de lecture.
Le choix d'un conteneur et des codecs
A nouveau, penser à quel type de matériel vous allez envoyer votre film. Si la destination finale est la lecture sur un ordinateur, le conteneur MPEG2 et les codecs MPEG-2 conviennent avec beaucoup ou peu de compression. Un conteneur AVI avec des codecs comme Huffyuv ou DV auront une meilleure qualité mais le coût de l'opération nécessite de l'espace disque.
D'autre part, si vous envoyez le film à un correspondant possédant un MAC, il est peut être judicieux de lui envoyer un fichier Quicktime. Pensez toujours à la livraison du film. Sera t-il diffusé par un disque dur, un lecteur disque DVD ou par un réseau, est ce par télechargement passif (protocoles HTTP, FTP ou actif protocoles de streaming). Quel type de matériel lira le film ?
Le choix d'un conteneur et des codecs est assez facile en suivant ces étapes de base.
- 1.Déterminez la méthode de diffusion et le système de lecture du destinataire
- 2.Choisissez le conteneur qu'il lit le plus fréquemment
- 3.Optez pour les codecs par défauts du système d'exploitation et le type de puissance de la machine (qualité de compression)
Un fichier maître de bonne qualité vous permettra de tester différentes méthodes d'encodage pour différentes livraisons. Plus vous encodez un fichiers plus ce fichier perd en qualité, apparition de bruit, artefact... Avoir un fichier source vous permet de garder en mémoire la qualité original et de l'encoder en multiple fichier autant qu'il existe de conteneurs contenant des codecs. Et bien que tous les codecs peuvent se fondre en théorie dans n'importe quel conteneur, il ne seront pas forcément pris en charge par la lecture.
La quantité de compression : le CBR et le VBR
Le CBR pour « Constant Bit Rate » et le VBR pour « Variant Bit Rate » sont les valeurs de mesure de compression de votre vidéo. Dans le cas du DVD, le débit binaire de la vidéo (Bit Rate Vidéo) peut réduire le poids de votre fichier vidéo, par la qualité de compression qui peut être de 1.5Mbps à 9.8 Mbps. Plus le débit binaire est élevé, meilleure est la qualité image. En utilisant un débit binaire constant (CBR), le débit ne varie pas et reste donc toujours égale à la valeur de compression désirée. En mode de débit binaire variable (VBR), le débit varie dans la gamme des compressions acceptables. Le débit binaire variable est plus acceptable car les images d'une vidéo ne nécessitent pas toujours lors d'une séquence de longs calculs pour la compression. Les images complexes, mouvements rapides de caméra, scènes d'actions, peuvent alors utiliser un débit élevé. Quant à celles comportant des scènes fixes, plus faciles à encoder, nécessite un débit moins rapide. Les options du VBR vous permettent de définir une fourchette du débit le plus lent acceptable à celui le plus élevé.
En théorie, l'usage du VBR serait d'une grande efficacité si des erreurs dans la pratique n'apparaissaient pas de la part des encodeurs. Pour cette raison, les professionnels de la vidéo passe deux fois le film en calcul et non un encodage à la volée.
Le mode CBR ne nécessite qu’une seule passe des données et convient particulièrement bien aux captures en temps réel à condition de ne pas exiger un bitrate trop petit ou trop grand. Il assure un bitrate presque constant tout au long du codage de la séquence.
Le mode VBR nécessite deux passes bien distinctes sur les données. La première passe sert à emmagasiner des statistiques et caractéristiques de la séquence à coder. La seconde va exploiter ces données recueillies afin d’optimiser la distribution de bits pour garantir une qualité quasi constante, tout en pouvant préciser un espace de débit binaire à respecter sur la totalité de la séquence.
L'exemple du film sur DVD
Sortie de l'exemple de lecture d'un système d'exploitation informatique, les lecteurs dédiés comme le lecteur DVD de salon, ont une capacité de lecture plus restrictive. Le choix étant limité, la marge d'erreur est donc limité. Les lecteurs de salon lisent un DVD, SVCD, VCD...
Un VCD est un disque de données au format MPEG1 standards. Un DVD contient les normes MPEG2. Ces deux disques n'ont que trois besoins, le type de support disque, les médias et les fichiers. Ces fichiers doivent être conforme à certaines normes. Ils peuvent être gravés par dépôt de fichier ou en utilisant un logiciel de conception de DVD, l'Authoring DVD. Pour la conception d'un DVD par logiciel (Authoring DVD), si les formats de médias ne sont pas compatibles la plupart des logiciels d'Authoring les compresseront afin qu'ils répondent aux normes, si ceux-ci peuvent s'appuyer sur les codecs de lecture et d'encodage.
Aux États-Unis, un DVD standard de base simple couche supportera :
- Support disque: DVD –R or DVD +R disc Média: DVD-R ou DVD + R
- Codec vidéo: MPEG2 (Best) NTSC États-Unis (525 lignes)
- Taille: 720 x 480 pixels
- Aspect Ratio: 4:3 ou 16:9 (écran large)
- Image Par Seconde: 29,97
- Bit Rate Vidéo: CBR ou VBR minimum 2,0 Mbit / s à 8,0 Mbit / s maximum
- Audio Codec: Uncompressed PCM (AIFF/Wave) audio ou AC3 Audio
- Bit Rate Audio: 1536 Kbit / s maximum
- Fréquence d'échantillonnage: 48 kHz
- Taille de l'échantillon: 16 bits / échantillon
- Nombre de flux audio: 1 Nombre de canaux audio: 1 (mono) ou 2 (stéréo)
Aux États-Unis, un VCD standard de base simple couche supportera :
- Support disque: CD –R disc Support: CD-R
- Codec vidéo: MPEG 1 NTSC États-Unis (525 lignes)
- Taille: 352 x 240
- Affichage: 4:3
- IPS: 29.97
- Bit Rate Vidéo: CBR ou VBR minimum 1,15 Mbit / s à 1,856 Mbit / s maximum
- Codec audio: MPEG 2
- Bit Rate Audio : maximum de 224 kbit / s
- Fréquence d'échantillonnage: 44,1 kHz
- Taille de l'échantillon: 16 bits / échantillon
- Nombre de flux audio: 1 Nombre de canaux audio: 1 (mono) ou 2 (stéréo)
En Europe :
Format | Résolution | Video Codec | Video Bit Rate | Fréquence d'échantillonnage | Audio Codec | Audio Bitrate | IPS | Affichage
- PAL DVD | 720x576 | MPEG-2 | 9800 kbps | 48000 Hz | MP2, AC-3, PCM | 1536 kbit / s (max) | 25 | 4:3, 16:9 (seulement pour 720x576)
- PAL SVCD | 480x576 |MPEG-2 | 2600 kbps | 44100 Hz | MP2 | 384 kbit / s (max) | 25 | 4:3
Les différences entre le DVD et le SVCD sont la taille du support, 800 Mo pour le SVCD et 4,7 Go pour le DVD. Le format d'affichage est également différent.
les supports optiques de stockage
Le support Vidéo CD
Le Vidéo CD ou VCD utilise l'image au format de compression MPEG I. La résolution de l'image est de 352 x 288 en 25 images par seconde pour le PAL et de 352 x 240 en 30 i/s pour le NTSC. Le débit constant varie entre 650 bits/s à 1150 bits/s. Le son 16 bits est échantilloné en 44,1 kHz à débit constant fixe à 224 bits/s. Le son peut être diffusé en mono, stéréo voire en surround. Cumulés, les taux de transfert audio et vidéo ne doivent pas excéder 1440 bps. Ce format ne convient pas du tout au 16/9.
Le support SVCD
Le SVCD, acronyme de Super Vidéo - CD ou Chaoji VCD à été conçu par Philips et l'état chinois. La volonté des asiatiques étant de ne pas payer de Royalties ou presque sur les technologies liées au DVD : compression Vidéo au format MPEG II, audio multicanal, sous-titrage. Plusieurs studios asiatiques, notamment à Hong Kong, Taiwan et Chine distribuent leurs films sous format SVCD.
Le format d'image du SVCD MPEG II a une résolution de 480 x 576 en 25 images pas seconde pour le PAL et 480 x 480 en 30 images pas seconde pour le NTSC. Le plafond maximal du taux de transfert en constant ou variable est de 2600 kbits/s. Deux formats sont disponibles pour le son, le MPEG I layer II ou le MPEG II multicanal 5.1. Le son 16 bit, 44,1 kHz autorise un taux de transfert de 32 kbits à 384 kbits. le MPEG I layer II autorise 2 langues en stéréophonie et 4 en mono. Le MPEG I layer II a un taux de transfert en moyenne de 224 kbps et le MPEG II de 384 kbps.
Son support de stockage permet une qualité optimale vidéo d'une durée de 45 minutes. Il faut donc 2 SVCD pour regarder un film de 90 mn. Le format du cadre image convient au format 16/9 de 1.77, avec une préférence pour le 1.85.
Le support CD-Audio
Également appelé CDDA, acronyme du Compact Disc Digital Audio, le CD Audio a été conçu en 1982 par Phillips et Sony. Le CD Audio utilise l'encodage non-compressé PCM, Pulse Code Modulation, d'une résolution de 44,1 kHz sur 16 bits. La durée d'écoute varie de 74 à 80 minutes. Il peut contenir 99 plages audio. Chaque plage doit durer au minimum 4 secondes. Le taux de transfert par seconde est de 1411 kbps. Des ajouts de données appelés sous canaux indiquent le temps écoulé et le temps relatif. Ils servent également à la synchronisation et à la correction des erreurs. Ces sous canaux donnent également naissance au CD + G pour l'incorporation d'éléments graphiques et au CD + MIDI pour des évènements MIDI. Mais ces derniers ne seront que peu utilisé en Europe.
Le support DVD
Le DVD, Digital Versatile Disc, représente différents supports de stockage.
- DVD Rom : Enregistrement de données informatiques
- DVD Vidéo : Enregistrement numérique de films
- DVD Audio : Enregistrement audio de haute qualité
- DVD-R et RW : Enregistrable et ré-enregistrable
- DVD Ram : Enregistrable et effaçable à volonté
L'image d'un DVD utilise la compression MPEG 2. La résolution de l'image est de 720 par 576 en 25 i/s pour le PAL et 720 par 480 en 30 i/s pour le NTSC. L'image peut être en 4/3 ou 16/9. Le taux de transfert, constant ou variable, a un plafond maximal de 9800 kbps. La solution moyenne est de 3500 kbps.
Cinq formats audio sont utilisables le LPCM du CD Audio, le MPEG 1 layer II des VCD et SVCD, le MPEG 2 multicanal du SVCD et le Dolby Digital, DTS 5.1. La quantification sonore du LPCM va de 16 à 24 bits et de 44,1 à 96 kHz. La moyenne est de 16 bits, 48 kHz, format son compressé linéaire et constant. Très peu utilisé pour les films, il excelle pour les DVD Audio dont le format sonore multicanal 5.1 possède un débit maximal de 6144 kbps. Le MPEG 1 layer II et le MPEG 2 multicanal sont en 16 bits et l'échantillonnage en 48 kHz. Le taux de transfert moyen est de 384 kbps pour le MPEG 2. Celui-ci variant de 32 à 912 kbps. Le MPEG 1 layer 2 a un plafond de transfert de 384 kbps. Son encodage varie le plus souvent de 192 à 224 kbps.
Le support Blu-Ray
Comme la guerre des supports des DVD Haute définition semble terminé depuis l'annonce de la décision de Toshiba de se retirer dans le développement et la fabrication de leur support, il ne reste plus que le choix du Blu-Ray de Sony.
Le DVD Haute Définition (HD DVD) est l'évolution du format du DVD. De nombreux téléviseurs supportent désormais ce format. Les anciens formats comme la VHS et le DVD supportent des définitions d'image de 720 pixels à la base x 576 en hauteur, (720x576 px en Europe, aux Etats Unis 576x480 px). Les films HD DVD peuvent supporter des cadres d'image full HD de 1920x1080.
Pour lire un HD DVD sur un ordinateur, vous devez bien sûre posséder un lecteur Blu-Ray ou HD DVD. Actuellement ceux-ci sont hors de prix, le moins cher étant l'acquisition d'une XBox ou d'une PSP en version 3 et les câbler en USB et vous bénéficiez d'un disque dur externe. Le microprocesseur mono doit être supérieur à 2,5 Ghz, les dual-core sont suffisants. La mémoire vive de votre système recommandée est de 1 Go à plus. Et un lecteur logiciel compatible, VLC convient très bien.
Pour les cartes graphiques les choix sont plus délicats. Elles doivent répondre à deux exigences. La plus importante est le support HDCP (High Definition Copy Protection), système de protection numérique contre la copie (système AACS, ROM Mark ROM Mark, BD+ BD +, pour plus d'information http://www.cryptography.com/technology/spdc/ ) entre votre carte graphique et le moniteur. Il s'en suit que le moniteur doit aussi comprendre le HDCP. Si vous utilisez le système VGA, votre résolution image sera réduite à 960x540 px au mieux. Les connecteurs supportant le HDCP sont le DVI (Digital Video Interface) ou le HDMI (High Definition Multimedia Interface).
La deuxième exigence n'est pas véritablement nécessaire. Cependant, le visionnage de la vidéo peut en souffrir. Il est conseillé que votre carte graphique possède une accélération de décodage pour soulager votre microprocesseur. Les cartes graphiques nécessaires sont les ATI dont les séries sont supérieures à la Radeon X1600 (recommandées > Radeon X1950), chez NVIDIA Geforce supérieures à GeForce 7600 GT (recommandées > GeForce 7950 GX2) et chez Intel Supérieures ou égales à la gamme Intel GMA 3000. Pour les utilisateurs GNU/Linux et de l'application Cinelerra, solution de montage vidéo Full HD, je recommande les cartes vidéo NVIDIA pour le support de l'OpenGL de leur pilotes propriétaire compatible Linux.
Le moniteur doit comprendre les connectiques DVI ou HDMI et doit être compatible HDCP. Pour tirer la meilleure définition d'un HD DVD, sa résolution conseillée est d'au minimum de 1920x1080px. Bien que vous pouvez écouter un HD DVD en stéréo, votre carte son se doit de supporter les systèmes surround 7.1 et si possible DSP pour soulager votre microprocesseur.
Les droits de lecture, d'écriture sur le Blu-Ray se nomme BD-Rom pour la lecture, BD-R pour l'enregistrement unique et le BD-RE pour le format réinscriptible, au même titre que le DVD-RW. Les capacités de stockage des disques diffèrent suivant leur nombre de couches. Il est actuellement en essai le support d'une troisième couche. Chaque couche peut supporter 25 Go, cinq fois supérieur au format DVD. Les supports HD DVD sont nommés BD25 ou BD50 suivant le nombre de couche. La transmission des données sont en vitesse 1x, ce qui correspond à un 30x pour un lecteur CD soit 36 Mbit/s.
Les différents types de lecteurs sont au nombre de quatre. Le profil 1,0, celui de base ne dispose pas de processeur vidéo et audio secondaire mais est équipé d'une mémoire flash de 64 Ko. Le profil 1,1 dispose d'un processeur audio et d'un processeur vidéo ainsi qu'une mémoire de 256 Mo. Enfin le profil 2,0 possède également les deux processeurs, une mémoire flash de 1 Go et d'une connexion réseau. Il sont tous équipés du BD-J, technologie Java permettant l'interactivité à l'exception du profil 3,0 qui correspond au lecteur audio en haute définition.
Les types de compressions utilisées pour le HD DVD est le système standard MPEG-2, le plus ancien et pas forcément le plus adapté. La compression MPEG-4 AVC, dénommé aussi comme MPEG-4 part 10, VC1, H.264 et le codec libre X.264 sont utilisés et devraient à terme devenir le standard. Les prises en charge des systèmes de compression audio ne diffèrent pas à la différence du support multicanal 7.1 et qui sont le Dolby Digital AC3 et DTS. Sont facultatifs le PCM et les compressions Dolby Digital Plus (DD+), Dolby TrueHD, DTS-HD et DTS-HD Master Audio.
Les compressions audio et vidéo avec pertes et sans pertes.
Un son ou une vidéo non compressé est au format RAW. Son extension peut être dans le cas du son WAV, AIFF, RAW. Son poids dépend de sa résolution d'échantillonnage (qualité de CD Audio définie 44,1 kHz / 16 bits). Une minute de son stéréo à cette qualité correspond à une taille de fichier d'environ 10 Mo. La compression permet de réduire la taille ou poids de ce fichier. Il est distingué deux types de compressions, celle destructive (Lossy) et celle non destructive (LossLess).
La compression avec pertes ne s'applique qu'aux données « perceptuelles », en général sonores ou visuelles, qui peuvent subir une modification, parfois importante, sans que cela ne soit perceptible par un humain. La perte d'information est irréversible, il est impossible de retrouver les données d'origine après une telle compression. La compression avec perte est pour cela parfois appelée compression irréversible ou non conservatrice. Seul un sous-ensemble très faible de sons possibles est exploitable par l'oreille, qui a besoin de régularités engendrant elles-mêmes une redondance. Un codage éliminant cette redondance et la restituant à l'arrivée reste donc acceptable, même si le son restitué n'est pas en tout point identique au son d'origine.
La compression Lossy, compression avec perte, ôte les informations audio du fichier qui en théorie ne sont pas perceptibles par l'homme suivant des normes de la psycho-acoustique (conversion stéréo en mono pour les basses fréquences, suppression de certaines fréquences...) Type : MP3, MPEG2, AC3, AAC, WMA, ATRAC, RealAudio, OGG...
La compression LossLess, compression sans perte, est de type "compression de données", elle compresse les données audio mais les restitue lors de la décompression, c'est à dire lors de la lecture du fichier. La compression est dite sans perte lorsqu'il n'y a aucune perte de données sur l'information d'origine. Type : FLAC (solution libre) que vous ne trouverez que dans les projet de la fondation Xiph.org.
Une vidéo non-compressé est une suite de 25 images par seconde plus deux à plusieurs pistes audio non-compressé. Ce type de donnée ne peut être acceptable sur une machine non-dédié. La suite d'image est donc compressée ainsi que le son.
Puisque l'œil ne perçoit pas nécessairement tous les détails d'une image, il est possible de réduire la quantité de données de telle sorte que le résultat soit très ressemblant à l'original, voire identique, pour l'œil humain. La problématique de la compression avec pertes est d'identifier les transformations de l'image ou du son qui permettent de réduire la quantité de données tout en préservant la qualité perceptuelle. Type : DV, MPEG2, MOV, WMV, FLV, DivX, RealVidéo, Xvid, OggTheora...
La compression sans perte HuffYUV (ou Huffyuv) est un codec très rapide publié sous les termes de la licence GPL. Il a été créé pour remplacer le format non compressé YcbCr pour la capture vidéo. Autre type de compression YUV (PAL et NTSC) et HSV (TSV).
Codecs Vidéo
- Xvid est un projet libre de codec vidéo MPEG-4. Il a été créé par un groupe de programmeurs bénévoles suite à l'arrêt du projet OpenDivx en juillet 2001. Xvid est le principal concurrent du produit propriétaire Divx. A la différence que Divx peut être lu sur les systèmes Windows, Apple, Linux, le codec vidéo Xvid par son coté libre peut potentiellement fonctionner sur tous le systèmes par l'ajout d'un codec libre et gratuit.
- Theora est un codec open source développé par la fondation Xiph.org dans le cadre du projet Ogg. Ce projet est né pour entrer en concurrence avec les formats MPEG-4, Xvid, Dix, WMV, RealVideo. Il intègre le VP3 codec de On2 technologie ou seul l'élaboration des entêtes divergent. La licence OpenSource de theora est de type BSD, licence permissive autorisant les développements propriétaires. Il est totalement libre que ce soit à des fins commerciales ou non.
- RealVideo est le format vidéo dévloppé par RealNetworks. Sa première version date de 1997. Il supporte de nombreuses plateformes comme Windows, Mac, Linux, Solaris et plusieurs téléphones portables. Il est utilisé le plus couramment avec le format audio RealAudio et contenu dans le fichier RealMedia (*.rm). Il est principalement conçu pour le streaming.
Le format est basé sur le codec H.263 jusqu'à la version 8. Depuis la société a sorti son propre codec propriétaire. Il utilise le protocole standard RTSP (Real Time Streaming Protocol) pour la diffusion des vidéos en streaming seulement pour créer et gérer la connexion. L'envoi de la vidéo est émis par leur propre protocole RDT. Cette tactique a été critiqué par les éditeurs de lecteurs vidéo. (Toutefois, le lecteur libre Mplayer a créé sont propre protocole libre RDT et de ce fait peut lire un streaming Real Networks.)
Pour faciliter le temps réel du streaming, la compression est en debit binaire constant (CBR), un débit variable est désormais possible par la formule RealMedia Variable Bitrate. Cela permet une meilleure qualité de vidéo cependant ce format est moins adapté pour le streaming. (des mouvements rapides ou des scènes avec beaucoup de cadrages différents nécessiteront un débit plus élevé).Si le VBR augmente le débit binaire à ce qu'il devienne supérieur à la vitesse de la connexion, il s'en suit une interruption de lecture de la vidéo.
Le lecteur officiel du format RealVideo est le RealPlayer disponible sur Windows, Mac et Linux. Ce lecteur a été également contesté car il véhiculait de nombreuses publicités. D'autres moyen de lecture sont donc apparu comme Mplayer ou Real Alternative. (FFmpeg programme libre lit le vieux codec H.263 de RealNetworks.)
RealNetworks développe également l'application open source Helix Player tout en limitant l'ouverture de certaines particularités de leurs codecs propriétaires.
- H.263 est un codec vidéo créé par le ITU-T (Union international des Télécommunications). Son développement est orienté vers la vidéoconférence et les solutions de conférence par Internet. Sa première version date de 1995. Sa version supérieure est le H.264 également connu comme AVC ou MPEG-4 part 10 qui fut développé en partenariat avec MPEG.
- FLV, Flash Video, est un format de fichier propriétaire développé par Adobe pour fournir de la vidéo sur Internet. Le FLV peut contenir également un ou des fichiers SWF, fichiers d'animation conçus par le logiciel Flash. Parmi les utilisateurs les plus connus du format FLV, ous trouvons GoogleVideo et YouTube. Le format FLV est visible sur les principaux systèmes d'exploitation par l'intermédiaire du lecteur Flash Player d'Adobe. D'autres lecteurs peuvent lire ce type de fichier comme Mplayer, VLC... Adobe a décidé d'ouvrir les spécifications techniques de son lecteur en Mai 2008, de nouveaux lecteurs devraient donc apparaître. Le lecteur FlashPlayer peut s'intégrer au sein d'une page Web permettant la visualisation de vidéo dans le navigateur Internet.
La plupart des fichiers FLV sont utilisateurs d'une variante du codec vidéo H.263. Il prend également en charge le codec On2 Technologies VP6 fournit dans l'application Adobe Flash Professionnal , On2 Flix, Sorenson Squeeze ainsi que d'autres. Le format FLV peut contenir de l'audio au format PCM, ADPCM ou MP3. Le format FLV est limité à une seule vidéo et un seul flux audio.
La livraison du flux vidéo peut être opéré par télechargement via HTTP, embarqué dans un fichier SWF (utilisation de l'application Flash) ou par télechargement actif via RMTP. Pour des raisons historiques, le lecteur FlashPlayer occupe l'espace mémoire et le processeur de la carte mère d'un ordinateur. Les ressources de lecture de la vidéo ne sont pas partagées sur la carte vidéo. Pour cette raison, il est préférable d'utiliser des formats ouverts mis en page par la norme HTML5.
- Dirac est conçu par le pôle Recherche et Développement de la BBC depuis 2003. Son algorithme de compression est optimisé pour la vidéo haute définition dont l'affichage est de 1920x1080 pixels au format MPEG-2 et MPEG-4. Il est également optimisé pour le streaming vidéo sur l'Internet et apparaît comme un codec très concurrentiel.
Les spécifications sont écrites et mises en lignes. Des produits matériels spécifiques commencent à embarquer le codec Dirac. La BBC soutient les projets open source et par ce projet y participe. Il leur est donc important que les conceptions du projet soient simples et de fournir une documentation abondante. Depuis 2006, la lecture du codec Dirac dans une taille d'affichage standard est décodé en temps réel sur un poste informatique standard. Le format HD peut être décodé sur une machine haut de gamme. De plus en plus de lecteurs vidéo logiciel décode le format Dirac.
- 3ivx, prononcé « trivix » est un codec commercial créé par 3ivx technologies. Ce codec permet une création du format MPEG-4 avec fonction de stream. Il est conçu principalement pour les systèmes embarqués qui ont besoin d'une puissance de traitement. 3ivx fournit des plugins et des filtres qui permettent d'être contenu dans les format Microsoft ASF, Apple Quicktime. Il permet également les créations de flux élémentaires MP4 et fournit un codec audio AAC.
Des décodeurs officiels sont fournies pour les systèmes d'exploitation Microsoft, Mac OSX et BeOS. D'anciennes versions non-maintenues fonctionnent sur Amiga et GNU/Linux. En outre, FFmpeg peut décoder 3ivx.
La société soutient le projet open source Haiku OS, un système d'exploitation dérivé de BeOS, qui contient un encodeur et décodeur Quicktime MOV.
Le Moving Picture Experts Group
Le Moving Picture Experts Group ou MPEG est un groupe de travail chargé de l'élaboration de l'encodage de l'audio et de la vidéo. La première rencontre eut lieu en Mai 1998. Depuis le nombre de membres a augmenté. Il sont actuellement aux alentours de 350 membres issus de diverses industries, d'universités et d'instituts de recherche. La désignation officiel de MPEG est ISO/IEC JTC1/SC29 WG11. MPEG a normalisé les formats suivants :
- MPEG-1 : première compression standard de vidéo et audio. Plus tard, utilisé comme norme pour les VideoCD et le populaire format de compression audio MPEG-1 Layer 3 (MP3).
- MPEG-2 : compression audio et vidéo pour les flux de transmission de diffusion aux normes de qualité télévisuelle. Utilisé par la télévision numérique, les DVD et les satellites.
- MPEG-3 : à l'origine conçu pour la TV HD, abandonné car le MPEG2 répond aux attentes de la HD.
- MPEG-4 : extension de la norme MPEG-1 avec de nouvelle technologie d'encodage (ASP/AVC), elle supporte les contenus 3D, le faible débit d'encodage, et les DRM.
- MPEG-7 :description des contenus multimédias
- MPEG-21 le futur standard multimédia « Multimédia Framework ».
MPEG-1 est un standard de compression audio et vidéo de données numériques. Le MPEG-1 est défini par le Moving Picture Experts Group. La vidéo au format MPEG-1 est utilisé pour le Video CD (VCD). Sa qualité est à peu près équivalente à la bande VHS d'un magnétoscope. Le format audio MPEG-1 layer 3 plus connu sous le nom de MP3 est la couche 3 du MPEG-1 dédié à l'audio.
Le MPEG-1 est constitué de plusieurs «parties», comme suit :
- La synchronisation et le multiplexage de la vidéo et l'audio.
- La compression pour les signaux vidéos non-entrelacés.
- Le MP3 pour MPEG-1 Part 3 Layer 3 (MPEG-1 Audio Layer 3)
- La procédures de test de conformité.
- Le logiciel de référence.
La norme vidéo MPEG-1 est initialement conçu pour les débits de données de 1,5 Mbits/s et un résolution de 352x240. Des améliorations ont permis d'atteindre des débits de 4 Mbits/s pour une meilleure qualité. Ce format est lisible actuellement par tous les ordinateurs et les lecteurs vidéos de salon. Le désagrément du MPEG-1 est qu'il ne supporte pas le balayage progressif (le balayage progressif (progressive scan) est le mode d'affichage utilisé par les écrans ayant une grande fréquence de rafraîchissement), ce qui incita le développement du MPEG-2.
MPEG-2 (1994) est une norme de compression audio et vidéo de données numériques. Le MPEG-2 a été accepté par le Moving Picture Experts Group et publié en tant que norme internationale ISO / IEC 13818. Il est généralement utilisé pour l'encodage de signaux de télédiffusion y compris celle par le satellite et le câble. Avec quelques modifications il est également utilisé comme standard commercial des films sur DVD.
Une norme est un référentiel publié par un organisme de normalisation. La normalisation ou la standardisation est le fait d'établir respectivement des normes et standards, c'est-à-dire un référentiel commun et documenté destiné à harmoniser l'activité d'un secteur. On ne parle de standard qu'à partir du moment où le référentiel a une diffusion large, on parle alors de standard de facto (standard de fait), en informatique les formats PDF ou les fichiers Microsoft Word en sont des exemples très connus.
Le MPEG-2 comprend une partie système qui définit les flux de transports pour l'audio et la vidéo permettant d'être utilisé dans les applications de diffusion. Il est similaire au MPEG-1 mais il supporte le balayage progressif utilisé par les systèmes de diffusion. Il n'est pas optimisé pour les faible débits de moins de 1 Mbits/s mais offre une meilleure qualité que le MPEG-1 à 3 Mbits/s et plus. Avec quelques améliorations le système MPEG-2 est utilisé dans la plupart des systèmes de transmission TVHD.
La partie 3 du MPEG-2 améliore le codage des programmes audio du MPEG-1 en acceptant le son multicanal. La partie 7 du MPEG-2 améliore l'usage de la bande passante pour l'audio, nommé AAC. Le MPEG-2 introduit également de nouvelles méthodes de codages du flux audio : un faible débit d'encodage avec des taux d'échantillonnage réduit de moitié, un encodage multicanal maximal de 5.1 et le MPEG-2 AAC
MPEG-4 est une norme devenue standard pour compresser l'audio et la vidéo de données numériques. Cette norme répond au standard du Moving Picture Expert Group. L'utilisation du MPEG-4 est orientée vers l'Internet, la visiophonie, et la télévision. Le MPEG-4 reprend beaucoup de particularité du MPEG-1 et MPEG-2 et ajoute des extensions dont le rendu 3D par le VRML, l'intégration d'objets composites (audio, vidéo, 3D), la gestion des DRM et plusieurs interactivité. Le format audio AAC compressé a été un complément du MPEG-2 en partie 7 avant d'être le format audio MPEG-4.
L'implémentation du standard n'est pas complète. Il n'existe donc pas une oeuvre complète de la norme. Cette norme parle de notions de profils et de niveaux afin de définir les sous-ensembles. Les brevets couvrant le MPEG-4 sont la propriété d'une vingtaine de sociétés.
Codecs audio destructifs
- Le codec audio Advanced Audio Coding (AAC) est également connu sous le nom de MPEG-2 Layer 7 et de Mpeg-4 Layer 3. AAC a été déclaré comme une norme internationale standard par le Group MPEG en avril 1997. Il a été développé avec la contribution des société Dolby, Franhaufer, AT&T, Sony et Nokia. Le codec AAC a été conçu commme une amélioration des performances du codec MP3 (MPEG-1 layer 3) et du MPEG-2 Audio (MPEG-2 Layer 3 ou ISO / IEC 13818-3).
AAC est prévu pour être le successeur du MP3 pour les codages audio à moyen et très haut débit. Un débit binaire de 96 kbit/s en codage AAC offre la même perception de qualité qu'un débit binaire de 128 kbit/s en MP3.
En 2003, la société Apple annonçait que les prochains IPod, ITune et leur site de musique en ligne supporterait le codec AAC. Depuis, il est une croyance populaire que le format AAC appartient à Apple. En fait, la société Apple à développé des extensions au codec AAC pour leur propre compte.
En Mai 2006, Nero AG a publié une solution propriétaire d'encodage sur Linux appelé Nero Digital Audio capable d'encoder le flux AAC LC, HE et Hev2. La solution OpenSource de la communauté Helix liée à RealMedia supporte également la conversion. AAC LC, HE et Hev2 sont le format AAC pour le télechargement actif .
La plupart des lecteurs logiciels supportent le codec AAC avec chacun leur spécificité. En 2005, le boum du télechargement de titre audio sur les téléphones portables a incité de nombreux constructeurs de mobiles l'intégration de la lecture du Codec AAC sur la haute gamme. La PlayStation III en est également équipée.
- MPEG-1 Audio Layer 3, plus communément appelé MP3, est le format populaire audionumérique d'encodage et de compression avec perte. Conçu en 2001 par une équipe d'ingénieurs dirigée par la société Fraunhofer d'Erlangen en Allemagne. Ce format fut créé pour réduire fortement le poids d'un fichier audio. Il se veut être un format fidèle à l'origine sonore.
Le MP3 est un fichier de compression audio. Il représente un encodage du format non compressé pulse-code modulation (PCM) dont le poids exprimé en octet est fortement réduit. Ce format ampute les informations sonores originelles qui sont considérées comme moins importantes pour la compréhension humaine.
Un certain nombre de techniques sont employés dans le format MP3 pour déterminer quelles portions des informations peuvent être rejetées. Le format MP3 compresse en différentes qualités de rendu sonore par le « bit rates », le débit binaire. Toute la gamme de compromis entre le rapport taille du fichier et qualité sonore dépendent du débit binaire.
En terme de spécification MPEG, le format AAC,( Advanced Audio Coding) dérivé du format MPEG-4 est le successeur du format MPEG-1 layer III, bien que certains groupes de pression popularisent d'autre format. Quoiqu'il en soit le remplacement du format du MP3 n'est pas d'actualité du à son formidable et écrasant succès auprès des consommateurs et des produits des « Mass Media ». En effet, le MP3 bénéficie du soutien de l'immense majorité des utilisateurs finaux et des logiciels, matériels tels que les lecteurs multimédia portables, DVD et lecteurs de CD.
- Musepack ou CPP est un codec libre spécialement utilisé pour la compression audio stéréo dont le débit binaire oscille entre 160-180 kbit/s. Auparavant connu sous le nom de MPEGplus, MPEG ou MP++, le fichier obtenu porte l'extension « *.mpc ».
Le développement du MPC est du à l'initiateur Andree Buschmann en 1997 et est maintenu par le MDT (Musepack Development Team). L'encodeur est supporté par de nombreux systèmes d'exploitation comme le monde de Microsoft, Apple, Linux et de lecteurs multimédia dont la liste est disponible sur le site de Musepack. La licence du produit est sous LGPL et BSD.
Musepack fut développé initialement en utilisant les codec MP2, depuis de nombreuses fonctionnalités ont été ajoutées. Musepack utilise nativement les tags au format APEv2 ; les tags ID3v1 (MP3, Vorbis) sont aussi supportés, mais déconseillés ; les tags ID3v2 sont à proscrire. Il est conseillé de choisir comme facteur de qualité un entier compris entre 5 et 7. Soit :
- quality 5 (auparavant --standard) : bitrate d'environ 170 kbps, variant entre 142 et 184 kbps
- quality 6 (auparavant --xtreme) : bitrate d'environ 200 kbps, variant entre 168 et 212 kbps
- quality 7 (auparavant --insane) : bitrate d'environ 220 kbps
Dans la quasi-totalité des cas, le profil "standard" ne provoque que peu d'altérations audibles du signal audio. Les audiophiles exigeants peuvent utiliser les profils "xtreme" et "insane". De tels profils peuvent également s'avérer utiles si le fichier est réencodé par la suite. Musepack n'est pas conçu pour les profils inférieurs à "standard" (par exemple "--quality 4", soit "radio"). Cependant, ses performances avec de tels profils demeurent plutôt bonnes.
- Le format de compression RealAudio destructif est développé par la société RealNetworks. Il utilise une variété de système de compression allant du faible débits binaire pour les modems téléphoniques à la haute fidélité pour la musique. Il peut être également utilisé comme un format audio de Stream. Beaucoup de station radio utilise RealAudio sur leur programme de diffusion par Internet.
La première version du Real audio date de 1995. Originellement, l'extension du format RealAudio est « *.ra ». En 1997, RealNetwork offre également un format de compression vidéo nommé RealVideo. La combinaison de la compression audio et vidéo donne naissance au format RealMedia dont l'extension est « *.rm ». Toutefois les dernières version de l'encodeur de fichier RealProducer encode à nouveau au format « *.ra » pour l'audio, au format « *.rv » pour la vidéo avec ou sans son et « *.rmvb » pour les fichiers vidéo en Variable Bit Rate. Les formats « *.ram » pour Real Audio Data et « *.smil » pour la Synchronized Multimédia Integration Language sont aussi quelquefois rencontrés au hasard de la toile.
Le lecteur officiel pour le format RealMedia s'appelle le RealPlayer et est disponible pour de nombreuses plateformes informatiques sous forme d'installateur binaire. Plusieurs caractéristiques de ce programme ont développé plusieurs controverses. Dans ces dernières années, la société s'est ouverte vers le libre en créant la communauté Helix, une collaboration pour étendre leurs médias.
RealNetworks n'a révélé aucun détails techniques sur leur format. Mais, il s'est avéré que certains codec audio utilisés dans les téléphones cellulaires et la télévision numérique étaient identiques. La documentation et les normes techniques de ces derniers formats ont permis d'écrire des programmes capables de lire du RealAudio sur la base de ces informations. Une variété de lecteur inofficiel ont vu naître le jour comme Real Alternative et Mplayer. La plupart de ces lecteurs sont construis sur le programme FFmpeg (programme GNU / GPL) qui possède ses propres bibliothèques de codec. Le projet Helix à ce jour bien que tourné vers le libre ne donne pas encore tous ses secrets. De ce fait certains formats ne sont pas lisibles.
RealAudio a été conçu comme un média de flux temps réel (streaming) ce qui signifie qu'à l'amorce du téléchargement l'écoute est présente. Il existe des protocoles de diffusion tel le direct ou l'écoute par fichier déposé par le protocole HTTP ou FTP. Après l'utilisation de protocoles propriétaires tel que le PNM, RTSP, il possède leur propre protocole RDT. Depuis peu la communauté Helix ont rendu public certains cahiers des charges de ce protocole.
- Speex est un projet libre de compression audio destructif dédié à la voix. Speex fait partie du projet GNU et est disponible sur le site Xiph.org. Ce codec est particulièrement bien adapté aux flux vocaux diffusés par l'Internet et offre quelques originalités en comparaison avec les outils similaires propriétaires : l'intensité d'encodage stéréo, l'intégration de plusieurs taux d échantillonnage dans le même débit binaire et un mode VBR. Le débit binaire oscille entre 2 et 44 kbps.
- Le codec Vorbis est une compression audio avec perte. Ce projet est dirigé par la fondation Xiph.org et est libre. Il est fréquemment utilisé en conjonction avec le conteneur Ogg ou appelé Ogg Vorbis. Bien que ce format est souvent appelé Ogg, cela est techniquement incorrect Ogg est un conteneur au même titre que AVI ou Matroska. Vorbis est le codec audio.
Le développement de Vorbis à commencé en septembre 1998 suite à l'annonce de la société Fraunhofer Gesellschaft de son intention de facturer les droits de licence de leur format MP3. Le fondateur Christopher « Monty » Montgomery commençait le projet Vorbis avec un nombre croissant d'autres développeurs. La version stable du codec fût libéré le 19 juillet 2002.
La dernière version officielle est la version 1.1.2. Le code source appelé « libvorbis » est disponible sur le site web vorbis.com. De nombreux binaires sont disponibles pour Windows sur le site Rarewares.org. Un Fork (fouchette), une séparation de la communauté de développement de Xiph propose son projet similaire nommé aoTuV et est disponible sur http://www.geocities.jp/aoyoume/aotuv/.
Le format Ogg Vorbis s'est avéré très populaire auprès des utilisateurs de logiciels libres. Ils font valoir la supériorité du format face à celui du MP3. Vorbis supporte les méta donnés « tag » du standard ID3 instauré pour le MP3. Son principal atout étant la libération de son code source. Dans le secteur commercial, le codec Vorbis est utilisé dans de nombreux jeux vidéo. La plupart des logiciel de lecture audio supporte ce codec. Il est parfois nécessaire d'y joindre un plug-in. Les flux audio de certaines radios proposent également l'écoute par Vorbis.
- Windows Media Audio (WMA) est un format de compression audio destructif développé par la société Microsoft. Il fut d'abord un concurrent au célèbre MP3. Puis est désormais le concurrent du format d'Apple (AAC) dans le système de vente de musique en ligne. Un très large panorama de produits de lecture audio supporte le codec WMA. Ceux-ci vont de la gamme des téléphones portables, des lecteurs DVD, des lecteurs audio. Le WMA est le second format de compression audio en terme de popularité auprès des utilisateurs et des constructeurs de périphériques de lecture audio après le MP3.
La communauté ffmpeg, développeurs de solutions d'encodages audio et vidéo libres, ont ré-implémenter par rétro-ingénieurie le format WMA pour permettre son utilisation sur les système Apple OSX et GNU/Linux.
La PlayStation Portable (PSP) intègre le WMA depuis sa version 2.60 sortie en novembre 2005.
La raison initiale du projet WMA de Microsoft était de ne pas payer de droit de licence à la firme Thomson SA, pour la lecture du MP3 sur le système d'exploitation Windows.
Le format WMA est capable d'être encodé en Variant Bit Rate (VBR) et Constant Bit Rate (CBR) ce qui lui permet une commercialisation polyvalente. Il supporte les Digital Right Management (DRM) et les Tags (étiquettes) d'identification au format ID3 utilisé également par le MP3. Le WMA est souvent encapsulé sous le format Advanced System Format (ASF).
Le format WMA7 a commencé à être largement diffusé à partir de sa version 7. La version 9 propose trois autres codecs dont un pour la voix, la compression sans perte et la version professionnelle. Ce dernier est basé sur une technologie complètement différente que les anciens lecteurs ne peuvent lire. La version 9.1 inclut le multicanal Surround.
Codecs audio non destructifs
- Windows Media Audio Lossles est un codec audio sans perte développé par Microsoft. Il compresse un CD audio dans un poids allant de 206 à 411 MB, un débit binaire de 470 à 940 kbit/s. Il utilise la même extension que le format WMA.
- WavPack est une solution libre de compression audio sans perte développée par David Bryant. Il permet aux utilisateurs de compresser et de restaurer 8, 16, 24 & 32-bit flottante au format « *.wav ». Il prend également en charge les multiples flux et une fréquence élevée du taux d'échantillonnage. La réduction des données varie selon le type de source. Il est généralement entre 25 et 50% pour la musique populaire et un peu moins performant pour la musique classique par son étendue plus vaste sur la gamme des nuances (gamme dynamique).
WavPack fournit un mode « Hybrid » qui offre un avantage supplémentaire. Cette option permet de créer deux fichiers. Le premier est un fichier compressé avec perte et le second contient l'ensemble des pertes, ce dernier peut donc assurer la restauration sonore originale. Facilité d'encodage, rapidité d'exécution, supportant le streaming, le son multicanal, la haute résolution, les Tags ID3v1 et APE, ce format a de solides atouts.
Le développement de WavPack démarre au milieu de l'année 1998 en version 1.0. Il est actuellement utilisé par de nombreux lecteurs et les produits Steinberg et Adobe entre autres. Multiplateforme, il s'installe très aisément sur de nombreux systèmes.
- Le format WAVE ou WAV est la forme d'onde pour le format audio de stockage standard de Microsoft et IBM. Ses variantes sont le format RIFF bistream format et le format d'Apple AIFF. C'est le format audio brut, Raw Audio. Même si le format WAV peut contenir différents formats audio compressés PCM (Pulse-Code modulation), il est de loin le format standard de l'audio. Les professionnels de l'édition sonore utilisent ce format pour sa qualité audio. Ce format peut être édité, manipulé par l'ensemble des logiciels avec une relative facilité.
Ce format a diminué en popularité depuis le partage de fichier sur Internet. Son poids étant lourd, il ne convenait pas aux débits des réseaux. Le WAV demeure toutefois le format d'échange des fichiers audio entre les applications.
Le format WAV possède quelques limitations comme sa taille qui ne peut excéder 4GB (4 Giga Octets). Certains programme le limite à 2 GB. Bien que cela soit l'équivalent de 6 heures 30 de lecture sonore en qualité CD-Audio (44.1 kHz, 16-bit stereo), il est parfois nécessaire d'aller au delà de cette limite. Cette limitation est du à l'entête du fichier 32 bits. Le format WAV64 permet un temps d'enregistrement supérieur grâce à son entête 64 bits et est reconnu par de nombreux logiciels. La bibliothèque libsndfile permet la conversion de l'entête.
Le CD-Audio n'utilise pas le format Wav mais le Red Book Audio. Leur point commun est que leurs données sont encodées en PCM.
- The True Audio (TTA) est un codec libre en temps réel de compression audio sans perte. http://www.true-audio.com/ Multicanal, il supporte les fichiers 8, 16 et 24 bits au format WAV. Les ratios de compression réalisé par TTA codec vairie selon le type de musique mais peut obtenir de 30 à 70 % de réduction du poids original du fichier. Il supporte les informations de tags ID3v1 et ID3v2.
- OptimFROG est une compression audio sans perte. Son principal objectif est de permettre de réduire au maximum la taille des fichiers audio, tout en permettant la restauration sonore identique à l'original. Compatible avec une quantité de lecteur, les Tags ID3v2, APEv2, une intégration optimale des formats WAV 32 bits, le streaming avec correction d'erreur, avec les système d'exploitation de Windows, Apple OSX et GNU/Linux, il possède de nombreuses extensions de lecture par les plugins. L'encodage est également rapide. Le ratio de compression pour un orchestre classique sont aux alentours de 25 % et à 70 % pour du rock métal lourd.
Utilisateur de la nouvelle technologie « stereo decorrelation, il gagne 1,5 % sur le poids des fichiers compressés en comparaison avec les meilleurs compressions sonores sans perte.
Il est à regretter qu'il soit propriétaire et ne possède aucun conteneur.
- Lossless Audio Coding également connu sous le nom de MPEG-4 ALS est une extension du MPEG-4 standard pour permettre la compression audio sans perte. Son extension a été finalisée en décembre 2005.
- Monkey's audio est un système de compression audio sans perte. L'extension de ses fichiers sont « *.ape » pour l'audio et « *.apl » pour les informations de données (Metadonnées). Comparativement, Monkey's audio est moins performant face à Flac, Shorten, sur certains domaines. Il peut diminuer le poids d'un fichier jusqu'à 55% cependant le temps de décodage avant lecture est un peu plus lent.
Ce format reçoit de nombreuses critiques puisque non libre il ne peut être utilisé dans une distribution Linux d'origine. Le débit binaire pour une qualité audio est de 600 à 700 kbps. Officiellement, il n'est supporté que par le système Windows.
- FLAC, acronyme de Free Lossless Audio Codec est un format populaire de compression audio. Contrairement au système de compression avec perte tels que le Vorbis, MP3, AAC, il ne supprime aucune information du flux audio et convient autant pour la lecture de fichier que pour l'archivage. Le format FLAC est actuellement soutenu par de nombreux projet logiciel et de plus en plus de support matériel.
En janvier 2003, Xiphophorus, maintenant appelé Xiph.Org Foundation annonçait la naissance de ce format de compression et rejoignait la famille de Ogg, Vorbis, Theora, Speex, etc.
FLAC est un système de compression comparable au format Zip de compression non destructive de données. Il est différent dans le sens que Zip peut compresser un format audio en gagnant 10 à 20 % de poids alors que le FLAC réalise un taux de compression de 30 à 50%. Alors que les systèmes de compression audio avec perte peuvent obtenir des performances de 80 % de réduction. La capacité technique de FLAC est sa possibilité d'être écouté dans un espace de temps de décodage très rapide, indépendamment du niveau de compression. FLAC est le format d'archive populaire pour tous les audiophiles désirant sauvegarder leurs précieuses collections sonores. Si le support original est perdu, endommagé ou hors d'usage, le format FLAC assure un double exact de l'original. Cette restauration est impossible avec un format destructif tel que le MP3... Lors de l'encodage d'un CD un fichier CUE peut être optionnellement activé. Ce fichier vous permet de graver à nouveau un CD tout en conservant avec exactitude l'ordre des morceaux, la durée de silence entre ceux-ci et les fichiers texte. Cependant, les données supplémentaires telles que les graphismes (CD+G) sont au delà des capacités d'un fichier CUE.
Le format FLAC ne supporte que les échantillons fixes et non à virgules flottantes. Cette méthode évite l'interpolation des courbes audio, les erreurs d'arrondi, et permet l'exacte reproduction au bit près. Il comprend n'importe quel fichier PCM d'une résolution de 4 à 32 bit, d'échantillon de 1 Hz à 1, 048,570 Hz en pas (incrémenté) de 1 Hz et un nombre de canaux s'échelonnant de 1 à 8. Ces canaux peuvent être groupés par Stéréo ou en son multicanal tel que le 5.1 surround pour profiter d'un meilleur taux de compression.
FLAC est supporté par de nombreux systèmes d'exploitation dont les plus courants.
Conteneurs
- Un fichier VOB (DVD-Video oB projet) est un type de fichier figurant dans les disques DVD-Vidéo. Il encapsule la vidéo l'audio, les sous-titres et les menus. Les VOB sont encodés en version standard MPEG-2. Lorsque l'on renomme l'extension VOB en MPG ou MPEG, le fichier reste toujours lisible bien que la plupart des lecteurs MPEG-2 ne prennent pas en charge les sous-titrages multipistes.
- Ogg Media File, OGM est un conteneur pour la vidéo, l'audio et le sous-titrage. Il fonctionne comme un conteneur AVI additionné de plusieurs caractéristiques comme le soutien des chapitres, de multiple pistes de sous-titrages, plusieurs format audio multicanaux (MP3, AC3, Vorbis, WAV). Fondamentalement, le OGM est un hack du conteneur OGG qui a été créer uniquement pour supporter les codecs de la Xiph.org. Ce format est souvent considérer comme une solution temporaire, qu'il faudra éliminer au profit de solution plus mature comme Matroska. Le développeur original de OGM, Thobias, a finalement rejoint le Xiph.org. Généralement, le OGM encapsule le XviD et pour l'audio soit le Vorbis ou AC3 (Dolby Digital). Il est désormais remplacé par le conteneurs OGV dont les codecs dédiés sont théora et vorbis.
- QuickTime est une technologie multimédia développée par Apple Computer. Elle est capable de traiter différents formats de vidéo, son, texte, animation, immersion panoramique. Quicktime est disponible pour Mac OSX et Windows.
Le conteneur QuickTime possède trois principaux composants : le fichier au format QuickTime lui même, un lecteur multimédia téléchargeable gratuitement et un kit de développement logiciel disponible sur Mac et Windows. La première version de Quicktime est apparu en 1991 comme plug-in multimédia. L'extension du format *.mov est considérer comme un conteneur qui peut contenir certains type de données particulières (effet, texte). Utilisation de codecs spécifiques propriétaire comme Cinepack, Sorenson, MP3, JPEG, DivX ou appel par internet dans une base de données de référence. La versatilité du format est illustré lors du projet HyperCard 3.0 d'Apple de structurer des sites Internet en format QuickTime. QuickTime est bien adapté pour l'édition d'autres formats comme AIFF, DV, MP3, MPEG-1 et AVI. Les formats ASF, OGG et Matroska ne bénéficie pas de cette adaptation.
Le groupement MPEG a approuvé le format QuickTime pour le MPEG-4. Mais les transformations d'Apple du format MPEG-4 ont provoqué un différent avec MPEG retardant la sortie de leur nouvelle version. Puisque le MP4 et le MOV supporte le MPEG-4, ils sont interchangeables dans un environnement QuickTime. Cependant le MP4 étant international, celui-ci a plus de soutien, on le retrouve notamment dans la Sony PSP, différents lecteurs DVD et par les DirectShow sur Windows. Le logiciel QuickTime PRO permet par la fonction « PassThrough » d'encoder en MP4.
Des solutions libres remplacent aisément le QuickTime notamment avec la solution FFmpeg pour les codecs Sorenson.
QuickTime Pro ajoute des fonctionnalités au lecteur QuickTime : exportation en différents codecs MPEG-4, H.264, DV, MJPEG, TIFF, PICT, JPEG, WAV, AIFF,ACC,MP3.
- Matroska est un projet de développement d'un code source ouvert à un format multimédia similaire à Apple QuickTime, de ASF ou de MP4. Son nom vient des poupées russes « Mastryoshka doll » et porte les extensions « *.mkv » et « *.Mka ». Le projet fut annoncé en 2002.
Ce projet a un certain nombre d'objectifs :
- Créer un conteneur moderne, flexible, extensible, multi-plateforme, permettant le streaming, la recherche facile d'un fichier et l'édition de chapitres comme sur les menus de DVD
- Créer un ensemble d'outils d'édition de fichier Matroska sous licence GNU / GPL
- Travailler avec les constructeurs pour qu'ils embarquent ce système de conteneurs dans leurs produits
- Que ce système s'intègre sur tous les systèmes d'exploitation
- AVI, l'acronyme de Audio Vidéo Interleave, est un format multimédia créé en 1992 par Microsoft pour Windows. Les fichiers AVI contiennent à la fois des données audio et vidéo dans un conteneur standard permettant la lecture. Comme les DVD, les fichiers AVI supportent plusieurs flux audio et vidéo bien que ces capacités ne soient pas utilisées. La plupart des fichiers AVI utilisent l'extension développée par le groupe Matrox Open DML et pris en charge par Microsoft et sont connus en version non officielle comme « AVI 2.0 »
L'utilisation de ce format continue malgré son coté obsolète. Il supporte tous les codecs vidéo comme ceux d'Indeo, Cinepack, MotionJPEG, MPEG modifiable, VDOWave, ClearVideo, RealVideo, QPEG, DivX, XviD et autres. Cependant, il supporte mal les nouveaux systèmes de compression MPEG-4 notamment celui du H.264.
Paradoxalement, le conteneur AVI reste populaire auprès des partageurs de fichiers. Ceci est sans doute du à la présence et de l'utilisation de Windows Movie Player. En 2005, le conteneur DivX obtient sa propre extension « *.divx » ce qui tend à remplacer l'extension « *.avi », mais cela ne change en rien ses qualités.
- L'Advances Systems Format (ASF) est le format de fichier utilisé par Windows Media audio et vidéo. Une grande quantité de codec peuvent y être contenus. ASF est un format pour synchroniser les données multimédias. Il supporte de nombreux protocoles réseaux. Il peut également contenir des données avancées comme des composants de télechargements, des spécificités d'auteur, support multiple de langue, bibliographie et gestion de contenu. Ces formats étant fermés et propriété de Microsoft.
La compression MPEG-4
L'évolution des formats de compression vidéo depuis les années 90 a vu naître successivement le MPEG-1, Le MPEG-2. Ces formats sont des standards du SMTP dédiés à la diffusion de la vidéo sur des supports comme le CD et le DVD. Dès le milieu des années 90, le MPEG-2 est un énorme succès. Les recherches pour son remplacement démarre en 1993 pour faire apparaître la future norme MPEG-4. Par ce nouveau format, l'ambition est de réduire de moitié les données et d'apporter l'interactivité au sein de la vidéo. Au début des années 2000, la norme H264 (MPEG-4 part 10) est développée. Cette norme doit diffuser de la vidéo sur les différents supports et l'Internet. Ce nouveau standard entre dans les mondes de la télévision, l'informatique et les télécommunications : diffusion TV, post-production, Télévision Numérique Terrestre, Télévision Haute Definition, téléphonie, visiophonie, streaming, télésurveilance, gestion de personnages virtuels...
Description
Le format MPEG-4 ne considère plus l'image comme un ensemble composé de X pixels à la base et de Y pixels en hauteur. L'image est perçue par sa composition dans la scène. Le MPEG-4 repère les éléments mouvants et les éléments fixes en comparant leurs évolutions à travers les images précédentes et les images suivantes. Ces éléments sont perçus comme des objets qui peuvent être un décor de fond, un personnage, un texte, un graphique, une modélisation 3D, éléments audio, un fond musical. Chaque objet cerné dans l'image est codé indépendamment des autres. Une hiérarchie des objets est aussi conçue. Une imbrication des objets apparaît telle que l'image d'un personnage implique sa voix. Ces regroupements permettront un jour dans une solution de post-production d'appliquer des masques, canal alpha à un objet ou à un ensemble d'objets.
Imaginez une scène de classe ou le maître est un objet, son mobilier est un objet ainsi que son diaporama, le support de cours. Ces trois objets imbriquent d'autres objets. L'objet "maître" imbrique les objets images du maître et sa voix, le "mobilier" imbrique les objets bureau, téléphone, documents et le "diaporama" : l'audio, la vidéo, l'écran. Ce découpage permet à chaque objet d'obtenir son propre flux d'information média. Le langage décrivant la scène s'appèl le BIFS (Binary Format For Scenes). Il est issu majoritairement du VRML (Virtual Reality Modeling Language) langage de modélisation 3D conçu à l'initial pour l'Internet.
Cette séparation des flux apporte en premier lieu d'appliquer la technique de compression la mieux adaptée à sa nature : qualité ou quelques pertes. En second lieu, ce découpage permet à chaque élément d'être autonome et de leur appliquer de l'interactivité. Il serait possible de déplacer un objet, de changer son apparence géométrique ou acoustique...et bien sûre agir sur le déroulement de la présentation par des boutons retour, avance...
Les informations par les métadonnées peuvent également renseigner les spectateurs sur les spécificités de la vidéo, voir contenir un générique. Tous ces objets sont multiplexés dans un flux unique, un fichier, le conteneur MPEG-4. Lors de la lecture de ce flux, les éléments sont recomposés et synchronisés pour restituer l'image finale. Le MPEG-4 est défini comme un « Rich Media ».
Du MPEG-2 au MPEG-4
Les systèmes de compression MPEG exploitent les redondances de l'image. La redondance spatiale applique le même système de compression d'une zone de pixels aux zones de pixels voisines comportant des caractéristiques similaires. Il n'est donc pas nécessaire de les ré-encoder. La redondance temporelles applique également le même système de compression dans une suite d'images aux zones de pixels qui ne diffèrent pas. Il n'est codé que les changements. Puis la redondances subjective évince les détails de l'image considérée comme non-perceptible par la vision humaine. Cette coupe peut être drastique en fonction de la nature de l'image et l'objectif de la diffusion.
Le traitement de compression des images vidéo par le système MPEG-2 divise l'image en blocks de pixels, définit par un carré de pixel de 16x16px. L'exploitation de cette division de l'image s'effectue par la redondance spatiale. Si en comparant l'image témoin de son image précédente et de son image suivante, les informations de ce carré d'images de 16x16px ne diffèrent pas, les valeurs n'ont pas besoin d'être ré-encodées. Le block est alors simplement copié sur les images suivantes. La redondance temporelle analyse les déplacements de ces blocks entre les images. Si ces blocks se déplace un déplacement vectoriel mathématique y est alors associé. Il n'est donc pas nécessaire de codé le block mais simplement de lui affecter un déplacement. Ce calcul est le résultat d'une analyse sur une ou plusieurs suites d'images.
- L'Intra Frames : les images sont codées directement telles des images JPEG. On les nomme Intra car elles ne font référence à aucune autre image qu’elle même. Ces images sont gourmandes en terme de bits, car elles n’exploitent pas du tout la cohérence temporelle des images. Cependant les IFrames servent de référence au codage des autres types d’images.
- Les Predicted Frames : ces images sont codées en effectuant une compensation de mouvement déduite à partir de l’image de référence précédente. La complexité de l’image, et la quantité de mouvements entre l’image codée et l’image de référence joue sur le poids du fichier. Les PFrames peuvent elles-même servir de référence.
- Les Bidirectional Frame : Ce dernier type d’image pousse l’idée de prédiction d’image encore plus loin. La technique employée ici consiste à coder l’image en référençant 2 images celle précédente et celle suivante. Les B-Frames ne sont pas des images de référence.
La redondance subjective par la fonction mathématique DCT, issu de la transformée de Fourrier, convertit la disposition des pixels de l'image en longueur d'onde, fréquence exprimée en Hertz. Suite à ce calcul, les hautes fréquences (Hz) non perceptibles à notre système visuel humain sont supprimées. Ces trois procédes de redondance permettent de réduire le poids des données vidéos.
Le MPEG-4 AVC est issu des travaux de l'ITU ( International Telecommunication Union) et ISO (International Standards Organisation) d'ou dans les articles spécialisés la dénomination de MPEG 4 part 10 pour l'ISO et H264 pour ITU. C'est en septembre 2004 que ce standard a été définitivement approuvé.
Le MPEG-4 part 10 conserve les quatre phases principales classique commune au format MPEG, le découpage par block et les trois redondances. Mais, elle introduit dans chacune de ces phases de nouvelles techniques. Des tailles de blocks de pixels différents se créent suivant les différents types de mouvement. Le découpage de l'image n'est plus des blocs fixes de 16x16 px. Le MPEG-4 AVC ou H.264 adapte ainsi le découpage de l'image dans une résolution plus fine qui mêle au sein d'une même image des tailles de blocs de 4X4, 4X8, 8X4, 8X8, 8X16, 16X8 et 16x16 pixels. Ces sept types de découpage affinent l'estimation des redondances.
Il est certain désormais que la compression MPEG-2 a atteint ses limites. Encodez un film en MPEG-2 et un film en MPEG-4 avec une limite de taille de 1 Go et visualisez la différence ! Le calcul de la compression se base sur le débit binaire pour le type de diffusion (Internet, ADSL, lecteur Blu-Ray...) et sur les nombreux paramètres des redondances visuelles. Cette complexité de l'encodage du MPEG-4 nécessite des équipements performants pour la lecture et l'encodage. Le débit binaire raisonnable pour la haute définition se situe entre 5 et 9 Mbits/s. Il va de soit que des images sportives demanderont un débit binaire supérieur qu'un film documentaire sur les koalas.
Les différentes parties du MPEG-4
Cette norme souhaitant couvrir le champ du multimédia et de l'audiovisuel amateur et professionnel comporte 21 modules nommées "part". Le coeur du systèmes sont les parties 1 pour le Systems, 2 pour le visuel, 3 pour l'audio et 6 pour le multimédia (DMIF, Delivery Integration Framework). La partie 2 est eclipsée par la partie 10 (MPEG-4 part 10) qui concerne les derniers développements en matière de réduction de débit autour du codec H264.
Le codec vidéo MPEG-4 se divise en plusieurs parties :
- Partie 1 : la synchronisation et le multiplexage.
- Partie 2 : la compression visuelle
- Partie 3 : la compression sonore AAC
- Partie 4 : description des procédures pour les essais de conformité à la norme
- Partie 5 : les logiciels de référence
- Partie 6 : delivery Multimedia Integration Framework
- Partie 7 : les logiciels de référence optimisé et les spécifications
- Partie 8 : spécifications sur les transports par voie IP
- Partie 9 : les matériel de référence
- Partie 10 : codec vidéo AVC pratiquement identique au standard H.264
- Partie 11 : moteur d'application pour les contenus 3D et sous titres
- Partie 12 : format de fichier pour stocker
- Partie 13 : DRM
- Partie 14 : conteneur du format MPEG-4 basé sur la partie 12
- Partie 15 : format de fichier AVC
- Partie 16 : extension du Framework animation
- Partie 17 : sous-titre temporaire et format texte
- Partie 18 : compression et streaming des polices de caractères OpenType
- Partie 19 : texture de synthèse
- Partie 20 : représentation des scènes
- Partie 21 : extension du Framework des images
- Partie 22 : type de police au format ouvert
Adaptabilité entre la transmission et le poste client
Le terme Scalability, adaptabilité, échelonnement, permet dans la diffusion du format de fournir différentes qualités de l'image suivant les possibilités de transmission et du support de réception. En exemple : un même flux MPEG-4 doit pouvoir s'adapter à la transmission par câble, ou hertzienne et la visualisation sur un téléviseur ou sur un téléphone mobile. La qualité de réception dans ce cas est proportionnelle aux possibilités de débits et de décodage des équipements. Les décodeurs matériels les plus performants assurent le décodage de la totalité du flux, alors que les décodeurs plus limités ne décodent qu'une partie du flux.
Les paramètres de l'adaptabilité sont celle spatiale, ou l'image affiche un pixel sur un nombre de pixel (image réduite), l'adaptabilité temporelle, réduction de la cadence image, et l'adaptabilité qualitative, la qualité des images est focalisée sur certains objets au détriment des autres, d'ou une apparition progressive de la qualité. Le groupe MPEG travaille sur une solution unique d'encodage basée sur la Scalability le MPEG SVC (Scalable Video Coding).
Les profils et niveaux (Profiles, Levels) du MPEG-4
La norme MPEG-4 possède la notion de profils définie pour la vidéo, l'audio mais aussi pour la partie système : profils graphiques, relatifs aux descriptions de scène... Les profils regroupent les outils de codage et les algorithmes suivant les situations d'utilisation de la vidéo : streaming, mobile, diffusion, production... Les profils visuels définissent les images, le mode de codage, la précision dans le mouvement. Ces profils sont en fait des préconfigurations des paramètres, suivant le choix du système de transmission et du lecteur client.
Chaque profil comporte différents niveaux qui vont vous permettre d'apporter différents paliers de performance. Les niveaux vous apportent des contraintes liée au choix du profil. Devant la complexité des paramètres, des consortiums comme MPEG Industry Forum, Internet Streaming Media Alliance proposent des certifications basées sur une procédure standard pour garantir la compatibilité de matériels et des performances. Mais l'augmentation des profils donne naissance à une jungle de profils matériels.
La version 2 des profils vidéo disposent des catégories suivantes :
- Simple Visual Profile : applications mobile
- Simple Scalable visual Profile : plusieurs niveaux de réception
- Core Visual : intéractivité
- Main : entrelacement et sprite
- N-Bit : application de surveillance
- Simple Facial Animation : modélisation faciale 3D
- Scalable Texture : texture d'image destinée au jeux
- Basic Animated 2D Texture : combinaison de Simple Facial Animation et de Scalable Texture
- Hybrid : Animation 3D et interactivité
- Advanced Real-Time Simple : visiophonie et visioconférence
- Core Scalable : Internet
- Advanced Coding Effinciency : broadcast mobile
- Advanced Scalable Texture : images fixes Internet et PDA
- Advanced Core : rich media
- Simple Face et Body Animation : améliore le Simple Facial
Les profils H264
- Baseline : résolution réduite, TV mobile, visioconférence
- Extended : streaming et mobiles
- Main : diffusion TV
- Fidelity Range Extensions : HD DVD, HDTV
- High : pour les professionnels de l'édition vidéo HDTV
Profils audio MPEG-4
- Speech : téléphonie (CELP)
- Synthesis : voix de synthèse (TTSI)
- Scalabale : téléphonie améliorée
- Main : englobe les profils précédents
- High Quality Audio : CELP et AAC (futur norme MP3)
- Mobile Audio Internetworking : application de communication recourant à des outils non-MPEG
- Low Delay Audio : regroupe CELP, TTSI et AAC
- High Efficiency Advanced Audio Coding : HE-AAC qualité supérieure
La compression professionnelle
AVCIntra
AVCIntra est un type de codage vidéo développé par Panasonic depuis 2007 qui est compatible avec le standard H.264/MPEG-4 AVC et suit les spécification pratique de la SMPTE RP 2027-2007. AVC-INTRA est disponible dans un certain nombre de produits de diffusion haute définition de Panasonic, comme les caméras de diffusion, par exemple leur carte P2.L’AVC-Intra est basé sur une technologie MPEG4. Panasonic utilise le MPEG4 de deux manières, d’une part pour l’AVC-Intra sur les marchés vraiment broadcast, production cinéma, et de l’autre côté sur un format plutôt entrée de gamme et grand-public qui s’appelle l’AVCHD. l’AVC-Intra, comme son nom l’indique, est un format intra-image, donc pas de GOP MPEG, et comme pour le DVCPRO on est que sur des images pleines ; alors que l’AVCHD son but va être de compresser fortement l’information et donc on va pour cela utiliser du Long GOP. L’AVC-Intra est dédié à un usage HD uniquement.
AVC-Intra 50:
- théoriquement 50 Mbit / s
- CABAC codage entropique seulement.
- 1920 × 1080 sont les formats High 10 Intra profil, niveau 4
- 1280 × 720 formats sont Maximum 10 Intra profil, niveau 3.2
- 4:2:0 chrominance d'échantillonnage
- les cadres 4/3, 1920 × 1080 sont réduit à 1440 × 1080 et 1280 × 720 réduit à 960 × 720)
- AVC-Intra 100: AVC-Intra 100:
- nominalement 100 Mbit / s
- CAVLC codage entropique seulement.
- Tous les formats sont intra High 4:2:2 Profile, Level 4.1
- 4:2:2 chrominance d'échantillonnage
- Les cadres ne sont pas redimensionnés
La résolution de captation du DVCPROHD est en 1440x1080. Donc comme pour d’autres formats c’est un système de pixel shifting qui lui permet de passer sur un format 16/9ème en 1920x1080.
Acquisition : Typiquement on peut utiliser un workflow tout à fait classique : sortir la vidéo en HD-SDI de la caméra et la capturer avec le codec maison de l’éditeur, ProRes ou DnxHD, en attendant que le codec AVC-Intra soit utilisé vraiment de manière native dans les logiciels sans avoir besoin de le décompresser au passage.
AVCHD
AVCHD est un format pour l'enregistrement et la lecture de la vidéo haute définition. Le format a été développé conjointement par Sony et Panasonic. En 2005, les deux sociétés ont combiné leurs efforts pour créer un format haute définition pour les caméscopes grand public sans cassette. Annoncé en 2006, le format permet l'enregistrement vidéo haute définition sur DVD de 8 cm, cartes mémoire SD / SDHC, cartes "Memory Stick" et lecteurs de disque dur. AVCHD a été conçu pour être compatible avec les disques Blu-ray Disc format et peut être utilisé pour l'authoring et la distribution de vidéo haute définition.
Le cahier des charges AVCHD comprend l'enregistrement en 720 lignes en mode progressif, à taux de rafraîchissement de 24, 30 et 60 images/s pour les modèles de 60 Hz et 25 et 50 images / s pour 50 modèles Hz. Par rapport au mode 720p HDV, AVCHD permet des débits de données plus élevés (jusqu'à 24 Mbit/s VBR contre 19,6 Mbit/s, CBR) et des utilisations plus avancées du codec (AVC vs MPEG-2).
Certains caméscopes AVCHD 1080i peuvent capturer la vidéo progressive et l'enregistrer dans un flux entrelacé, empruntant des techniques de l'industrie de la télévision. En particulier, les images ségmentée progressives (PsF) sont utilisées dans certains camescopes Panasonic (25p cinéma numérique) et Canon (PF25, PF30). La technique du 2:3 pulldown est utilisé par 60 Hz par les caméscopes Canon (mode PF24), Panasonic HS300/TM300/SD300 (Digital Cinema) et le Panasonic GH1 numérique hybride cinéma/broadcast. La plupart des outils d'édition de traitement de la vidéo progressive ou entrelacées peuvent utilisé le motif pulldown en utilisant le procédé téléciné inversé.
Les modèles les Panasonics capable d'enregistrer les formats 1080p sont les AG-HMC150 et l'AG-HMC40, qui sont capables d'enregistrer dans les trois formats haute définition: 1080i, 1080p et 720p. Parmi les modèles de consommation, 60 versions Hz de la HDC-SD9/HDC-SD9 et modèles HDC-HS100/HDC-SD100 sont capables d'enregistrer vidéo 1080p24 natif.Aucune caméra Canon ou Sony AVCHD n'enregistrent au format 1080p24.Les camescopes Canon enregistrent soit en vidéo AVCHD 1080i native, ou progressive-scan 24-frame / s, 25-frame / s et 30-frame / s vidéo, encapsulés dans un flux 1080i. Les modèles Sony AVCHD enregistrent uniquement en mode entrelacé.
AVCCAM est le nom de la gamme vidéo professionnelle Panasonic Broadcast qui emploie le codec AVCHD avec des fonctions professionnelles. Il n'ya pas de différences majeures dans l'encodage des flux vidéo ou dans la structure de fichiers entre AVCCAM et AVCHD. Les fonctionnalités professionnelles de AVCCAM, soulignée par Panasonic dans son matériel de marketing, tels que les capteurs CCD 1/4-pouce ou les entrées micro XLR ou le support à semi-conducteurs, ne sont pas propres à l'AVCCAM. Beaucoup de ces aspects professionnels ne sont pas propres à l'AVCHD non plus. Certaines fonctionnalités sont perdues dans des modèles les plus récents, par exemple, l'AG-HMC40 utilise 3MOS système d'imagerie au lieu des 3 capteurs CCD.
Tous les caméscopes AVCCAM enregistrement sur carte mémoire Secure Digital.Les nouvelles caméras AVCCAM comme l'AG-HMC150 et l'AG-HMC40 utilise les High-Profile@Level-4.1 du format AVCHD avec un bitrate maximum de 24 Mbit / s D'un autre côté, Canon utilise High-Profile@Level-4.1 à 24 Mbit / s sur ses modèles de consommation.
L'AVCHD Lite est un sous-ensemble du format AVCHD, qui identifie les périphériques qui sont capables de 720p l'enregistrement uniquement.
DV
La vidéo numérique DV est un format créé par Sony, JVC, Panasonic etc. et lancé en 1995. Son support de stockage est une cassette MiniDV compacte et est depuis devenu un standard pour l'utilisation grand-public et de la vidéo professionnel du documentaire et des reportages d'actualité. La spécification DV dont le nom officiel est CEI 61834 définit à la fois le codec et le format de bande. Les caractéristiques comprennent la compression intra-image pour l'édition et une bonne qualité visuelle.
DV utilise une compression intra-image DCT à un débit fixe de 25 mégabits par seconde (25,146 Mbit/s), qui, ajoutée aux données sonores (1,536 Mbit/s) etles données de code, tels les détections d'erreurs et de correction d'erreur (environ 8,7 Mbit/s) s'élève en tout à environ 36 mégabits par seconde (env. 35.382 Mbit/s). À des débits binaires égaux, le format DV est légèrement supérieur au vieux codec MJPEG, et est comparable à l'intraframe de la norme MPEG-2. La compression DV avec perte de qualité souffre parfois d'une distorsion autour des zones de couleur rapide ou changements intenses dans l'image, tels que du texte et les textures fines. L'image est divisée en macroblocs, chacune composée de 4 blocs DCT de luminance et de chrominance 1 bloc DCT. Six macroblocs sont sélectionnés à des positions éloignées les unes des autres dans l'image et sont codées sur un montant fixe de bits. Enfin, les informations de chaque macrobloc comprimé est stocké le plus possible en un seul bloc de synchronisation sur la bande magnétique. Tout ceci rend possible la recherche d'éléments vidéo sur la bande à des vitesses élevées, dans les deux sens de lecture rapide, ainsi que de produire à la volée des corrections pour les blocs de synchronisation endommagés.
DVCAM
Le DVCAM Sony est une variante professionnelle du DV standard qui utilise le même support cassette DV et MiniDV, mais la bande transporte des données deux fois plus rapidement et est plus large physiquement, 15 micromètres au lieu de 10 micromètres. Cette variante DV utilise le codec DV. Le mode LP (Longue Lecture) du DV grand public n'est pas supporté. Tous les enregistreurs DVCAM et caméras peuvent lire des séquences DV, DVCPRO mais ce n'est que récemment ajoutées à certains modèles comme DSR-1800, DSR-2000, DSR-1600. Les cassettes DVCAM (ou cassettes DV enregistrées en mode DVCAM) ont un temps d'enregistrement réduit d'un tiers. En raison d'une bande plus large, le DVCAM a la capacité de modifier et d'insérer des trames de bandes. Une autre caractéristique du format DVCAM est la possibilité de verrouiller l'audio. Si plusieurs générations de copies sont faites sur la K7 DV, la synchronisation audio peut dériver contrairement à la DVCam ou cela ne se produit pas.
DVCPRO
Panasonic a créé la famille DVCPRO avec fonctions d'édition linéaire et une meilleure robustesse. Il a une largeur de bande plus grande, 18 micromètres, et utilise un autre type de bande férique. En outre, la bande a une piste audio de repèrage. L'audio est disponible seulement dans la variante 16-bit/48 kHz, il n'y a pas de mode EP, compression forte, et le DVCPRO utilise le sous-échantillonnage 4:1:1 couleur. Le standard DVCPRO (également connu sous le nom DVCPRO25) est par ailleurs identique au format DV au niveau «bitstream». Cependant, contrairement à Sony, Panasonic a choisi de promouvoir sa variante DV professionnel pour les applications haut de gamme.
Le DVCPRO50 est souvent décrit comme deux codecs DV en parallèle. La norme DVCPRO50 double le bitrate vidéo codés à partir de 25 Mbit/s à 50 Mbit s, et utilise la profondeur chroma 4:2:2 au lieu du sous-échantillonnage 4:1:1. Le DVCPRO50 a été créé pour assurer la compatibilité et la rivalité avec les dérivé des Betacam numérique.La BBC préfère utiliser le DVCPRO50 plutôt que les caméras HDCAM pour filmer des séries télévisées populaire, tels que Space Race (2005) et Rome (2006).
Le DVCPRO HD est aussi connu comme DVCPRO100. Il utilise quatre codecs parallèles et un débit binaire de 40-100 Mbit/s, en fonction du format. Le DVCPRO HD encode en utilisant l'échantillonnage colorimétrique 4:2:2. DVCPRO HD gère les dimensions images enregistrées à 960 × 720 pixels pour une sortie 720p, 1280 × 1080 pour 1080/59.94i ou 1440 × 1080 pour 1080/50i. Le rapport final de compression DCT de DVCPRO HD est d'environ 6.7:1. Pour maintenir la compatibilité avec le cable coaxial HD-SDI, l'équipement DVCPRO100 sur-échantillone la vidéo pendant la lecture. La varicam est également disponible dans le camescope assurant des variable de cadence image (framerate de 4 à 60 images/s). Toutes ces variantes sont compatibles en amont mais pas pas en avaL. Le DVCPRO-HD est normé SMPTE 370M, le format DVCPRO-HD bande en SMPTE 371m, et le format MXF Op-Atom format est utilisé sur cartes P2 normé en SMPTE 390M.
HDV
HDV est un format d'enregistrement et de lecture de la vidéo haute définition sur une cassette DV. Le format a été initialement développé par JVC et a été soutenu par Sony, Canon et Sharp. Les quatre sociétés fondent le consortium HDV en Septembre 2003. Conçu comme un format haute définition abordable, le HDV s'est rapidement répandu par de nombreux utilisateurs professionnels en raison de son faible coût, sa portabilité et la qualité d'image acceptable pour de nombreuses productions professionnelles. Les deux versions majeures du HDV sont HDV 720p ou HDV 1080i. La première est utilisée par JVC et est officieusement connu sous le nom HDV1. Ce dernier est adopté par Sony et Canon et est parfois dénommé HDV2. L'option HDV 1080i définit les modes d'enregistrement progressif, et dans des publications récentes est souvent appelé HDV 1080 ou 1080-HDV. La plupart des caméscopes HDV utilisent les "petites" K7 MiniDV ou DVC. Certaines caméra-épaule sont également capable d'enregistrer sur des "grandes" cassettes DVCAM / DV. Le temps d'enregistrement est le même que le DV Standard. Contrairement aux formats DV, HDV n'offre pas de vitesse de Longue Lecture. HDV est rétro-compatible avec les formats DV, ce qui signifie que les équipements HDV peuvent lire et enregistrer du contenu DV. Cependant, les lecteurs DV ne peuvent lire, ni enregistrer au format HDV.
HDV 720p
HDV 720p correspond au balayage progressif 720p, la diffusion vidéo standard en termes de type de balayage, vitesse d'image, la taille, aspect ratio et débit de données. Les premiers modèles HDV 720p cadencait un enregistrement de 24, 25 ou 30 images par seconde. Les nouveaux modèles intègrent désormais les cadences images de 50p/60p.
HDV 1080i
Sony adapte le format HDV de JVC pour les équipements vidéo à balayage. La vidéo entrelacée a été un compromis utile pendant des décennies en raison de sa capacité d'afficher les mouvements en douceur tout en réduisant la largeur de bande d'enregistrement et de transmission. La vidéo entrelacée est encore utilisé dans l'acquisition et la diffusion, mais les périphériques d'affichage entrelacé sont progressivement abandonnés.
Certains caméscopes HDV 1080i sont capables d'enregistrer une vidéo progressive au sein d'un flux entrelacé, à condition que la cadence image progressive ne dépasse pas la moitié de la cadence image balayée. Le premier caméscope HDV 1080i incorporant l'interlacement a été le HVR-V1 de Sony. Pour préserver la compatibilité avec le matériel entrelacé, le stockage bande et sorties vidéo du HVR-V1 sont sous forme entrelacée. La cadence 25-frame/s et 30-frame/s progressive est enregistrée sur bande par la technique de ségmentation d'image progressive (PsF), tandis que l'enregisrement 24-frame/s emploie la technique du pulldown 2-3. Le caméscope offre deux variantes de la cadence d'enregistrement 24-frame/s : celle du "24" et du "24A", cette dernière est également connue comme "24p scan". La visualisation "24" indique qu'il n'y a aucune rupture de la cadence image et que vous visionné un film progressif. Le mode "24A" enregistre 24 images par seconde, mais la phase de la conversion 60i est réinitialisé à chaque enregistrement.
HDV 1080p
Comme les utilisateurs sont de plus en plus intéressés à la cinématographie numérique et au web-tv, l'enregistrement progressif est devenu une nécessité. En réponse à ce besoin, la capacité de l'enregistrement progressif a été ajouté à la spécification du HDV 1080i. Les modes d'enregistrement progressif sont facultatifs pour les équipements HDV 1080i, ce qui signifie que les caméscope HDV 1080i ne sont pas tous apte d'enregistrer ou lire des vidéo progressive. La spécification HDV 1080i comprend maintenant les deux modes entrelacé et progressif dans les modèles récents. Il est souvent appelé HDV 1080 ou 1080-gamme HDV, mais le nom officiel porte encore le "i" suffixe. Les camescopes HDV 1080p ont une cadence de 24 images/s (en réalité 23,98 frame/s) et entrelacé de 30 images/s (en réalité 29,97 frame/s) à 60 Hz, et de 25 images/s à 50 Hz marchés. La sortie vidéo est progressive via le port Firewire i.LINK /. Les autres port de sortie sont en mode entrelacé afin de préserver la compibilité éxistante.
HDCAM
Le modèle HDCAM, introduit en 1997, est une version HD de Digital Betacam. La HDCAM utilise une DCT 8-bit compressé 3:1:1, dans une résolution de 1080i compatible au sous-échantillonnage de 1440 × 1080. Plus tard seront ajoutés les cadences de 24p et 23,976 en modes PsF. Le codec HDCAM utilise des pixels non carrés, il est donc anamorphosé en format full HD. Le débit de la vidéo enregistrée est de 144 Mbit / s. L'audio est enregistré avec 4 canaux en AES/EBU 20-bit/48 kHz. Comme le Betacam, la cassettes HDCAM sont produits dans des tailles de cassettes petites et grandes, la petite cassette utilise le même format que le Betamax original.
HDCAM SR
La HDCAM SR a été introduit en 2003 et standardisée SMPTE 409M-2005. Elle utilise une bande de densité plus élevée de particules métallique et est capable d'enregistrer en 10 bits 4:2:2 ou 4:4:4 RVB avec un débit binaire vidéo de 440 Mbit/s et un débit total d'env. 600 Mbit/s. Ce débit supérieur à la HDCAM permet de capturer des dimensions images plus grande en HD-SDI (1920 × 1080). Certains magnétoscopes HDCAM SR peuvent également utiliser un débit binaire 2x plus élevé de 880 Mbit/s, permettant un seul flux 4:4:4 ou la diffusion de deux flux vidéo en même temps en profondeur colorimétrique de 4:2:2. La HDCAM SR utilise la compression MPEG-4 Part 2 Simple Profile Studio pour la compression, et élargit le nombre de canaux audio de 12 à 48 kHz/24 bits. Il existe 12 canaux d'enregistrement audio non compressées à 24bit 48kHz échantillonnage. Chaque canal est capable d'enregistrer aux normes AES/EBU.
XDCAM
XDCAM est un système instauré par Sony en 2003. Les deux premières générations, XDCAM et XDCAM HD, utilisent un système disque pour l'enregistrement des données médias. Ce disque est similaire au disque Blu-ray et peut stocker 23 Go de données (PFD23, simple face) ou 50 Go (PFD50, double-sided). La troisième génération, XDCAM EX, utilise des cartes SxS dont le débit est de 800Mbit/s. En Septembre 2008, JVC a annoncé son alliance avec Sony pour supporter le format XDCAM EX. La gamme comprend des caméras XDCAM et des adaptations avec le flux de production traditionnelle des magnétoscopes. Les fichiers peuvent également transité par câbles Ethernet et firewire.
IMX (MPEG IMX)
IMX permet d'enregistrer en définition standard, au format MPEG-2 à un débit de données de 30, 40 ou 50 mégabits par seconde. MPEG IMX n'utilise pas la compression temporelle, ce qui le rend approprié comme un format d'édition sur les outils logiciel de montage vidéo. À 50 Mbit/s, il offre une qualité visuelle qui est comparable à Digital Betacam, il est utilisé à ce titre pour de nombreuses productions télévisées. C'est un choix populaire pour les émissions de télé-réalités.
XDCAM HD (XDCAM HD420, MPEG HD420)
XDCAM HD supporte de multiples modes de transport de haute qualité 35 Mbit/s (mode HQ), en utilisant un débit variable (VBR) MPEG-2 de compression Long-GOP. L'option qualitative de 18 Mbit/s (VBR) et 25 Mbit/s (CBR) offrent des modes d'enregistrement en temps augmenté, au détriment du mouvement, la qualité vidéo.
XDCAM EX
Sony a présenté avec la caméra XDCAM EX PMW-EX1 en Novembre 2007. Il offre un profil d'enregistrement similaire à XDCAM HD, mais inscrit les données sur les cartes mémoire SxS. La carte SxS permet un transfert de données rapide 800 Mbps) et une grande fiabilité. Le codec est employé soit à un débit binaire de 25 Mbit/s CBR pour le mode SP (1440 × 1080), ou 35 Mbit / s VBR pour mode HQ (1920 × 1080). La vidéo enregistrée est encapsulé en MP4, contrairement au wrapper MXF du XDCAM.