Guide de l'Utilisateur d'Omni Describer

Donner une Voix au Monde Visuel grâce à l'IA.

Tout a commencé avec ma passion pour le cinéma. Quand j'ai réalisé combien de détails dans mes scènes préférées se perdaient sans une bonne audiodescription, une idée a germé : "Et si l'IA pouvait nous faciliter la tâche ?" J'ai rêvé d'un outil qui ne se contenterait pas de générer des descriptions, mais qui donnerait aussi un contrôle total à l'utilisateur. Après des mois de travail acharné, d'innombrables essais et de nombreux obstacles techniques surmontés, j'ai développé Omni Describer comme le fruit de ce rêve.

Table des Matières

D'où vient le nom ?

Le "Omni" dans le nom vient du latin, signifiant "tout" ou "chaque chose". J'ai choisi ce nom car je ne voulais pas que l'outil ait un seul but. Oui, Omni Describer vise principalement à rendre les médias accessibles aux personnes aveugles et malvoyantes en créant des audiodescriptions. Cependant, son utilité ne s'arrête pas là.

C'est aussi un outil d'exploration. Un critique de cinéma, un étudiant, un artiste, ou toute personne curieuse des détails visuels peut utiliser des fonctionnalités comme "Explorateur de Scène" ou "Poser des questions" pour sonder les couches d'une vidéo comme jamais auparavant. Omni Describer est une fenêtre pour voir le monde à travers les "yeux" de l'IA et le comprendre différemment. En bref, c'est "un descripteur pour tout, pour tout le monde".

Configuration Requise

Pour obtenir les meilleures performances d'Omni Describer, je recommande de respecter la configuration minimale suivante :

Pour commencer : Configurer vos clés API

Omni Describer utilise des services d'IA basés sur le cloud pour analyser et vocaliser les descriptions. Par conséquent, vous devez saisir vos propres clés API avant de pouvoir commencer.

  1. Ouvrir les Paramètres : Allez dans le menu Fichier et sélectionnez Paramètres... (ou appuyez sur Ctrl + ,).
  2. Onglet Paramètres IA :
    • Clé API Gemini : Ceci est obligatoire pour l'analyse vidéo. Collez votre clé dans le champ "Clé API Gemini :". Vous pouvez obtenir une clé API gratuite depuis Google AI Studio.
    • Clé API OpenAI (pour TTS) : Ceci est requis pour la synthèse vocale de haute qualité. Collez votre clé dans ce champ. Vous pouvez toujours utiliser les voix intégrées de Windows sans cette clé, mais OpenAI est recommandé pour de meilleurs résultats. Vous pouvez obtenir une clé depuis la Plateforme OpenAI.
  3. Enregistrer : Cliquez sur Appliquer ou OK pour sauvegarder vos paramètres. Vous êtes maintenant prêt !
Veuillez noter : Vos clés API sont stockées en toute sécurité sur votre ordinateur dans le fichier de configuration de l'application et ne sont jamais envoyées ailleurs, sauf pour se connecter aux services d'IA respectifs.

Démarrage rapide : Générer votre première description

Commençons ! Suivez simplement ces étapes :

  1. Choisissez une vidéo : Cliquez sur un bouton comme "Fichier vidéo local" sur la fenêtre principale ou sélectionnez votre source vidéo depuis le menu Fichier.
  2. Sélectionnez une instruction (Optionnel) : Le menu déroulant liste des instructions prédéfinies qui guident l'IA. Pour votre premier essai, "Description standard" est un excellent point de départ.
  3. Lancez le traitement : L'application va maintenant commencer à analyser votre vidéo. Vous pouvez suivre la progression dans le "Journal d'état" en bas de la fenêtre. Cela peut prendre quelques minutes, selon la durée de la vidéo.

Lorsque le processus est terminé, le Lecteur Vidéo Audiodécrit s'ouvrira automatiquement, et vous pourrez commencer à profiter de votre vidéo nouvellement décrite !

Fonctionnalités Principales

Le Lecteur Vidéo Audiodécrit

C'est votre salle de cinéma personnelle et audiodécrite. Pendant que la vidéo se joue normalement, votre lecteur d'écran installé (comme JAWS ou NVDA) lira les descriptions générées aux moments appropriés.

Gérer les Préréglages d'Instructions

Les instructions (prompts) sont de puissantes directives qui déterminent sur quoi l'IA se concentre. En changeant l'instruction, vous pouvez obtenir des descriptions dans des styles très différents.

Poser des questions sur la scène

Vous vous êtes déjà demandé ce qu'un personnage tient ou ce qu'un panneau en arrière-plan dit ? Cette fonction vous permet de demander tout ce qui vous vient à l'esprit sur la scène.

  1. Mettez la vidéo en pause au moment qui vous intrigue.
  2. Cliquez sur le bouton Poser une question....
  3. Tapez votre question dans le champ "Votre nouvelle question :" (par ex., "De quelle couleur est le chapeau de la femme ?" ou "Que dit l'inscription sur le mur ?").
  4. Sélectionnez combien de secondes de vidéo l'IA doit analyser, à partir de la position actuelle du curseur.
  5. Cliquez sur "Soumettre la question". La réponse de l'IA apparaîtra dans la zone "Historique de la conversation".

Explorateur de Scène

L'Explorateur de Scène est une manière interactive de comprendre l'agencement spatial d'une scène. Il vous place dans une pièce virtuelle que vous pouvez parcourir avec votre clavier.

  1. Mettez la vidéo en pause sur une scène que vous voulez explorer en détail.
  2. Cliquez sur le bouton Explorer la scène..., puis sur "Analyser la scène".

Vous êtes maintenant dans l'Explorateur de Scène. Utilisez votre clavier pour explorer :

Exporter votre travail

Une fois que vous êtes satisfait de vos descriptions, vous pouvez les exporter depuis la fenêtre du Lecteur dans différents formats :

Plongée dans les Paramètres Avancés

La fenêtre des Paramètres (Ctrl + ,) vous donne un contrôle précis sur le comportement d'Omni Describer.

Onglet Paramètres IA

Onglet Sortie Audio

Conseils et Astuces pour les Meilleurs Résultats

Créer de bonnes audiodescriptions est un art. Bien que l'IA soit un assistant efficace dans cet art, vous obtiendrez les meilleurs résultats en la guidant correctement.

Le pouvoir des instructions : vos notes de réalisateur

L'application a un ensemble de règles fondamentales qu'elle enseigne à l'IA (comme ne pas parler par-dessus les dialogues). Considérez la zone Préréglage d'Instruction sur l'écran principal comme l'endroit où vous fournissez vos notes de réalisateur pour cette vidéo spécifique. Une bonne note aide l'IA à se concentrer sur un style ou un détail particulier, tandis qu'une note vague peut entraîner des résultats inattendus.

Quand (et comment) utiliser une instruction

La plupart du temps, l'IA peut produire d'excellents résultats sans instruction spéciale, en se basant uniquement sur ses règles de base. Je recommande de n'utiliser cette fonctionnalité que lorsque vous avez un objectif précis en tête.

Astuce n°1 : L'instruction "Se concentrer sur les noms"
Dans une vidéo avec de nombreux personnages où les noms sont importants, l'IA peut parfois être trop hésitante à utiliser un nom. Pour prioriser le suivi des noms, vous pouvez créer une instruction personnalisée : Pour cette vidéo, votre plus haute priorité est d'identifier et d'utiliser les noms corrects des personnages dès qu'ils sont prononcés dans le dialogue. C'est plus important que d'être trop concis. Tout en vous concentrant sur cela, essayez de respecter toutes les autres règles du système du mieux que vous pouvez.
Astuce n°2 : L'instruction "Décrire l'atmosphère"
Dans les films visuellement riches où l'atmosphère est essentielle, vous pouvez guider l'IA pour qu'elle se concentre sur l'environnement : Concentrez-vous sur la description du décor, de l'atmosphère et des détails environnementaux. Pour créer un monde visuel riche, mentionnez l'éclairage, les couleurs et l'ambiance générale de la scène. Accordez moins d'importance aux mouvements mineurs des personnages, sauf s'ils sont cruciaux.

Ce qu'il faut éviter dans les instructions

Pour de meilleurs résultats, il est important d'éviter les instructions qui contredisent les principes fondamentaux de l'IA. Comme l'IA essaie toujours de suivre les instructions, lui en donner une défectueuse peut lui faire mal interpréter la vidéo.

En résumé : Utilisez les instructions non pas pour changer les règles fondamentales d'une bonne audiodescription, mais pour guider l'IA sur un point de mire spécifique.

Foire Aux Questions (FAQ)

Q : Mes clés API sont-elles sécurisées ?
R : Oui. Vos clés sont stockées uniquement sur votre ordinateur et ne sont jamais partagées avec quiconque, sauf pour se connecter aux services de Google/OpenAI.

Q : Pourquoi la génération des descriptions prend-elle autant de temps ?
R : Le temps dépend de la durée de votre vidéo, de votre vitesse internet (pour envoyer la vidéo à l'IA), de la fréquence d'images que vous avez sélectionnée, et de la charge actuelle sur les services d'IA. L'utilisation de la fonction "Activer la segmentation vidéo" est fortement recommandée pour les longues vidéos.

Q : Pourquoi l'IA n'a-t-elle pas décrit quelque chose que j'ai vu à l'écran ?
R : L'IA est entraînée à préférer le silence plutôt que de faire une erreur ou de parler par-dessus un dialogue. Vous pouvez utiliser la fonction "Poser une question..." pour vous renseigner sur des moments spécifiques ou sélectionner le niveau de verbosité "Détaillé" dans les Paramètres.

Raccourcis Clavier

Remerciements, Contact et Contributeurs

Merci beaucoup d'utiliser Omni Describer ! Cette application est le reflet de mon désir de rendre les médias visuels plus accessibles et agréables pour tous. Avoir des utilisateurs comme vous qui utilisent cet outil et fournissent des retours est la plus grande motivation pour continuer à le développer.

Retours et Support

Avez-vous une question, un rapport de bogue, ou une idée pour une nouvelle fonctionnalité ? J'adorerais avoir de vos nouvelles ! Le meilleur moyen de me contacter est par e-mail. Vos retours sont inestimables pour rendre Omni Describer encore meilleur.