Guide de l'Utilisateur d'Omni Describer
Donner une Voix au Monde Visuel grâce à l'IA.
Tout a commencé avec ma passion pour le cinéma. Quand j'ai réalisé combien de détails dans mes scènes préférées se perdaient sans une bonne audiodescription, une idée a germé : "Et si l'IA pouvait nous faciliter la tâche ?" J'ai rêvé d'un outil qui ne se contenterait pas de générer des descriptions, mais qui donnerait aussi un contrôle total à l'utilisateur. Après des mois de travail acharné, d'innombrables essais et de nombreux obstacles techniques surmontés, j'ai développé Omni Describer comme le fruit de ce rêve.
Table des Matières
D'où vient le nom ?
Le "Omni" dans le nom vient du latin, signifiant "tout" ou "chaque chose". J'ai choisi ce nom car je ne voulais pas que l'outil ait un seul but. Oui, Omni Describer vise principalement à rendre les médias accessibles aux personnes aveugles et malvoyantes en créant des audiodescriptions. Cependant, son utilité ne s'arrête pas là.
C'est aussi un outil d'exploration. Un critique de cinéma, un étudiant, un artiste, ou toute personne curieuse des détails visuels peut utiliser des fonctionnalités comme "Explorateur de Scène" ou "Poser des questions" pour sonder les couches d'une vidéo comme jamais auparavant. Omni Describer est une fenêtre pour voir le monde à travers les "yeux" de l'IA et le comprendre différemment. En bref, c'est "un descripteur pour tout, pour tout le monde".
Configuration Requise
Pour obtenir les meilleures performances d'Omni Describer, je recommande de respecter la configuration minimale suivante :
- Système d'exploitation : Windows 10 ou plus récent (64-bit).
- Mémoire vive (RAM) : Au moins 4 Go de RAM.
- Espace de stockage : Au moins 500 Mo d'espace disque libre pour l'application et les fichiers temporaires.
- Connexion Internet : Une connexion internet active est requise pour se connecter aux services d'IA (Google Gemini, OpenAI) et télécharger les vidéos.
- Lecteur d'écran : Pour une accessibilité totale, un lecteur d'écran comme JAWS, NVDA ou le Narrateur Windows est recommandé.
Pour commencer : Configurer vos clés API
Omni Describer utilise des services d'IA basés sur le cloud pour analyser et vocaliser les descriptions. Par conséquent, vous devez saisir vos propres clés API avant de pouvoir commencer.
- Ouvrir les Paramètres : Allez dans le menu Fichier et sélectionnez Paramètres... (ou appuyez sur Ctrl + ,).
- Onglet Paramètres IA :
- Clé API Gemini : Ceci est obligatoire pour l'analyse vidéo. Collez votre clé dans le champ "Clé API Gemini :". Vous pouvez obtenir une clé API gratuite depuis Google AI Studio.
- Clé API OpenAI (pour TTS) : Ceci est requis pour la synthèse vocale de haute qualité. Collez votre clé dans ce champ. Vous pouvez toujours utiliser les voix intégrées de Windows sans cette clé, mais OpenAI est recommandé pour de meilleurs résultats. Vous pouvez obtenir une clé depuis la Plateforme OpenAI.
- Enregistrer : Cliquez sur Appliquer ou OK pour sauvegarder vos paramètres. Vous êtes maintenant prêt !
Veuillez noter : Vos clés API sont stockées en toute sécurité sur votre ordinateur dans le fichier de configuration de l'application et ne sont jamais envoyées ailleurs, sauf pour se connecter aux services d'IA respectifs.
Démarrage rapide : Générer votre première description
Commençons ! Suivez simplement ces étapes :
- Choisissez une vidéo : Cliquez sur un bouton comme "Fichier vidéo local" sur la fenêtre principale ou sélectionnez votre source vidéo depuis le menu Fichier.
- Sélectionnez une instruction (Optionnel) : Le menu déroulant liste des instructions prédéfinies qui guident l'IA. Pour votre premier essai, "Description standard" est un excellent point de départ.
- Lancez le traitement : L'application va maintenant commencer à analyser votre vidéo. Vous pouvez suivre la progression dans le "Journal d'état" en bas de la fenêtre. Cela peut prendre quelques minutes, selon la durée de la vidéo.
Lorsque le processus est terminé, le Lecteur Vidéo Audiodécrit s'ouvrira automatiquement, et vous pourrez commencer à profiter de votre vidéo nouvellement décrite !
Fonctionnalités Principales
Le Lecteur Vidéo Audiodécrit
C'est votre salle de cinéma personnelle et audiodécrite. Pendant que la vidéo se joue normalement, votre lecteur d'écran installé (comme JAWS ou NVDA) lira les descriptions générées aux moments appropriés.
- Contrôles de lecture : Utilisez les boutons Lecture/Pause, Retour/Avance rapide, ou le curseur de recherche pour naviguer dans la vidéo.
- Zone de l'audiodescription actuelle : Vous pouvez suivre ici le texte de la description en cours.
- Modifier les descriptions : Si une description est inexacte, mal synchronisée ou si vous souhaitez la supprimer, cliquez sur le bouton "Modifier les descriptions..." pour la corriger ou la supprimer facilement.
- Utilisation des jetons IA : Cette zone vous indique combien de "jetons" IA ont été utilisés pendant le processus, vous aidant à suivre votre consommation API.
Gérer les Préréglages d'Instructions
Les instructions (prompts) sont de puissantes directives qui déterminent sur quoi l'IA se concentre. En changeant l'instruction, vous pouvez obtenir des descriptions dans des styles très différents.
- Sélectionner un préréglage : Avant de traiter une vidéo, choisissez un préréglage dans le menu déroulant sur la fenêtre principale.
- Gérer les préréglages : Allez dans Fichier -> Gérer les préréglages d'instructions.... Ici, vous pouvez Ajouter, Modifier ou Supprimer vos propres instructions personnalisées. C'est parfait pour sauvegarder les instructions que vous utilisez fréquemment.
- Spécifique à la langue : Vos préréglages d'instructions sont sauvegardés séparément pour chaque langue que vous sélectionnez dans les Paramètres.
Poser des questions sur la scène
Vous vous êtes déjà demandé ce qu'un personnage tient ou ce qu'un panneau en arrière-plan dit ? Cette fonction vous permet de demander tout ce qui vous vient à l'esprit sur la scène.
- Mettez la vidéo en pause au moment qui vous intrigue.
- Cliquez sur le bouton Poser une question....
- Tapez votre question dans le champ "Votre nouvelle question :" (par ex., "De quelle couleur est le chapeau de la femme ?" ou "Que dit l'inscription sur le mur ?").
- Sélectionnez combien de secondes de vidéo l'IA doit analyser, à partir de la position actuelle du curseur.
- Cliquez sur "Soumettre la question". La réponse de l'IA apparaîtra dans la zone "Historique de la conversation".
Explorateur de Scène
L'Explorateur de Scène est une manière interactive de comprendre l'agencement spatial d'une scène. Il vous place dans une pièce virtuelle que vous pouvez parcourir avec votre clavier.
- Mettez la vidéo en pause sur une scène que vous voulez explorer en détail.
- Cliquez sur le bouton Explorer la scène..., puis sur "Analyser la scène".
Vous êtes maintenant dans l'Explorateur de Scène. Utilisez votre clavier pour explorer :
- Touches fléchées : Déplace votre position virtuelle sur une grille.
- D : Fournit une description détaillée de l'agencement général de la scène.
- L : Annonce une liste de tous les objets dans la scène.
- Maj + L : Passe en "Mode Saut" pour sélectionner un objet et s'y rendre directement.
- Entrée : Obtient une description détaillée de l'objet le plus proche.
- Échap : Ferme l'Explorateur de Scène.
Exporter votre travail
Une fois que vous êtes satisfait de vos descriptions, vous pouvez les exporter depuis la fenêtre du Lecteur dans différents formats :
- Exporter en .TXT : Un simple fichier texte avec les horodatages.
- Exporter en .SRT : Un fichier de sous-titres standard que vous pouvez utiliser dans des lecteurs vidéo comme VLC.
- Exporter l'audio (MP3) : C'est peut-être la fonctionnalité la plus excitante. Elle vocalise vos descriptions avec la voix que vous avez sélectionnée dans les Paramètres (SAPI5 ou OpenAI), la mélange avec l'audio original de la vidéo, et baisse automatiquement le son de fond pendant les descriptions pour créer un fichier MP3 que vous pouvez écouter n'importe où.
Plongée dans les Paramètres Avancés
La fenêtre des Paramètres (Ctrl + ,) vous donne un contrôle précis sur le comportement d'Omni Describer.
Onglet Paramètres IA
- Fréquence d'images pour l'analyse IA : Détermine le nombre d'images par seconde envoyées à l'IA. Une valeur plus basse (par ex., 5 FPS) peut réduire les coûts API mais augmente le risque de manquer des actions très rapides.
- Envoyer uniquement la vidéo (sans l'audio) à l'IA : C'est une option utile pour empêcher que l'audio de la vidéo (dialogues, musique, effets sonores) ne perturbe l'IA. Au lieu d'essayer de décrire une explosion qu'elle entend, l'IA se concentrera uniquement sur ce qui se passe visuellement.
- Désactiver les filtres de sécurité (À utiliser avec prudence) : Cette option peut permettre à l'IA de traiter du contenu et de générer des descriptions qu'elle pourrait normalement signaler comme sensibles. Cependant, ce n'est pas une dérogation absolue. Le résultat reste soumis aux politiques de sécurité fondamentales de Google, et il n'y a aucune garantie que tous les filtres seront contournés. Veuillez vous rappeler que vous êtes responsable de l'utilisation de cette fonctionnalité.
Onglet Sortie Audio
- Moteur de synthèse vocale :
- SAPI5 (intégré à Windows) : Utilise les voix compatibles SAPI5 fournies avec Windows ou que vous avez installées. Il ne nécessite pas de clé API supplémentaire. La qualité audio variera en fonction de la qualité des voix installées sur votre système.
- TTS OpenAI (Haute qualité) : Produit généralement des voix plus naturelles et fluides. L'utilisation de cette option nécessite une clé API OpenAI et un moyen de paiement associé à votre compte.
Conseils et Astuces pour les Meilleurs Résultats
Créer de bonnes audiodescriptions est un art. Bien que l'IA soit un assistant efficace dans cet art, vous obtiendrez les meilleurs résultats en la guidant correctement.
Le pouvoir des instructions : vos notes de réalisateur
L'application a un ensemble de règles fondamentales qu'elle enseigne à l'IA (comme ne pas parler par-dessus les dialogues). Considérez la zone Préréglage d'Instruction sur l'écran principal comme l'endroit où vous fournissez vos notes de réalisateur pour cette vidéo spécifique. Une bonne note aide l'IA à se concentrer sur un style ou un détail particulier, tandis qu'une note vague peut entraîner des résultats inattendus.
Quand (et comment) utiliser une instruction
La plupart du temps, l'IA peut produire d'excellents résultats sans instruction spéciale, en se basant uniquement sur ses règles de base. Je recommande de n'utiliser cette fonctionnalité que lorsque vous avez un objectif précis en tête.
Astuce n°1 : L'instruction "Se concentrer sur les noms"
Dans une vidéo avec de nombreux personnages où les noms sont importants, l'IA peut parfois être trop hésitante à utiliser un nom. Pour prioriser le suivi des noms, vous pouvez créer une instruction personnalisée :
Pour cette vidéo, votre plus haute priorité est d'identifier et d'utiliser les noms corrects des personnages dès qu'ils sont prononcés dans le dialogue. C'est plus important que d'être trop concis. Tout en vous concentrant sur cela, essayez de respecter toutes les autres règles du système du mieux que vous pouvez.
Astuce n°2 : L'instruction "Décrire l'atmosphère"
Dans les films visuellement riches où l'atmosphère est essentielle, vous pouvez guider l'IA pour qu'elle se concentre sur l'environnement :
Concentrez-vous sur la description du décor, de l'atmosphère et des détails environnementaux. Pour créer un monde visuel riche, mentionnez l'éclairage, les couleurs et l'ambiance générale de la scène. Accordez moins d'importance aux mouvements mineurs des personnages, sauf s'ils sont cruciaux.
Ce qu'il faut éviter dans les instructions
Pour de meilleurs résultats, il est important d'éviter les instructions qui contredisent les principes fondamentaux de l'IA. Comme l'IA essaie toujours de suivre les instructions, lui en donner une défectueuse peut lui faire mal interpréter la vidéo.
- Mauvais exemple d'instruction :
"Dis-moi tout ce qui se passe." Cela peut rendre l'IA trop peu sélective, l'amenant à se concentrer sur des détails sans importance comme "(le personnage parle)" au lieu d'actions significatives.
- Mauvais exemple d'instruction :
"Dis-moi ce que les personnages disent." Cela peut lui faire violer la règle "décrire uniquement le visuel" et décrire le dialogue, comme "le personnage a dit de prendre ceci".
En résumé : Utilisez les instructions non pas pour changer les règles fondamentales d'une bonne audiodescription, mais pour guider l'IA sur un point de mire spécifique.
Foire Aux Questions (FAQ)
Q : Mes clés API sont-elles sécurisées ?
R : Oui. Vos clés sont stockées uniquement sur votre ordinateur et ne sont jamais partagées avec quiconque, sauf pour se connecter aux services de Google/OpenAI.
Q : Pourquoi la génération des descriptions prend-elle autant de temps ?
R : Le temps dépend de la durée de votre vidéo, de votre vitesse internet (pour envoyer la vidéo à l'IA), de la fréquence d'images que vous avez sélectionnée, et de la charge actuelle sur les services d'IA. L'utilisation de la fonction "Activer la segmentation vidéo" est fortement recommandée pour les longues vidéos.
Q : Pourquoi l'IA n'a-t-elle pas décrit quelque chose que j'ai vu à l'écran ?
R : L'IA est entraînée à préférer le silence plutôt que de faire une erreur ou de parler par-dessus un dialogue. Vous pouvez utiliser la fonction "Poser une question..." pour vous renseigner sur des moments spécifiques ou sélectionner le niveau de verbosité "Détaillé" dans les Paramètres.
Raccourcis Clavier
- Ctrl + O : Ouvrir une vidéo locale
- Ctrl + U : Ouvrir depuis une URL directe
- Ctrl + Y : Ouvrir depuis YouTube
- Ctrl + , : Ouvrir les Paramètres
- F1 : Afficher l'Aide
Merci beaucoup d'utiliser Omni Describer ! Cette application est le reflet de mon désir de rendre les médias visuels plus accessibles et agréables pour tous. Avoir des utilisateurs comme vous qui utilisent cet outil et fournissent des retours est la plus grande motivation pour continuer à le développer.
Retours et Support
Avez-vous une question, un rapport de bogue, ou une idée pour une nouvelle fonctionnalité ? J'adorerais avoir de vos nouvelles ! Le meilleur moyen de me contacter est par e-mail. Vos retours sont inestimables pour rendre Omni Describer encore meilleur.