Guía de Usuario de Omni Describer

Dando Voz al Mundo Visual con IA.

Todo comenzó con mi amor por el cine. Cuando me di cuenta de cuántos detalles de mis escenas favoritas se perdían sin una buena audiodescripción, me surgió una idea: "Bueno, ¿no podría la IA facilitarnos este trabajo?". Soñé con una herramienta que no solo generara descripciones, sino que también diera al usuario un control creativo total. Tras meses de intenso trabajo, innumerables pruebas y muchos obstáculos técnicos superados, desarrollé Omni Describer como el producto de ese sueño.

Índice de Contenidos

¿Qué Significa el Nombre?

El "Omni" en el nombre viene del latín y significa "todo" o "la totalidad". Elegí este nombre porque no quería que la herramienta sirviera para un único propósito. Sí, Omni Describer tiene como objetivo principal hacer los medios accesibles para personas ciegas y con discapacidad visual creando audiodescripciones. Sin embargo, su propósito no se limita a eso.

Esta es también una herramienta de exploración. Un crítico de cine, un estudiante, un artista o cualquier persona con curiosidad por los detalles visuales puede usar funciones como el "Explorador de Escenas" o "Preguntar Más" para sumergirse en las capas de un vídeo como nunca antes. Omni Describer es una ventana para ver el mundo a través de los "ojos" de la IA y entenderlo de una forma diferente. En resumen, es "un descriptor para todo, para todos".

Requisitos del Sistema

Para obtener el mejor rendimiento de Omni Describer, te recomiendo cumplir los siguientes requisitos mínimos del sistema:

Primeros Pasos: Configurar tus Claves de API

Omni Describer utiliza servicios de inteligencia artificial en la nube para analizar y locutar las descripciones. Por lo tanto, necesitas introducir tus propias claves de API antes de poder empezar.

  1. Abrir Configuración: Ve al menú Archivo y selecciona Configuración... (o pulsa Ctrl + ,).
  2. Pestaña de Configuración de IA:
    • Clave de API de Gemini: Es obligatoria para el análisis de vídeo. Pega tu clave en el campo "Clave de API de Gemini:". Puedes obtener una clave gratuita en Google AI Studio.
    • Clave de API de OpenAI (para TTS): Se necesita para la síntesis de voz (TTS) de alta calidad. Pega tu clave en este campo. Aún puedes usar las voces integradas de Windows sin esta clave, pero se recomienda OpenAI para obtener los mejores resultados. Puedes obtener una clave en la Plataforma de OpenAI.
  3. Guardar: Haz clic en Aplicar u OK para guardar tu configuración. ¡Ya estás listo!
Recuerda: Tus claves de API se guardan de forma segura en tu ordenador, en el archivo de configuración de la aplicación, y nunca se envían a ningún otro lugar, excepto para conectarse a los servicios de IA correspondientes.

Inicio Rápido: Generar tu Primera Descripción

¿Listo para empezar? Solo tienes que seguir estos sencillos pasos:

  1. Elige un Vídeo: Haz clic en un botón como "Archivo de Vídeo Local" en la ventana principal o selecciona tu fuente de vídeo desde el menú Archivo.
  2. Selecciona una Plantilla de Instrucción (Opcional): El menú desplegable lista instrucciones predefinidas que guían a la IA. Para tu primer intento, "Descripción Estándar" es un excelente punto de partida.
  3. Inicia el Procesamiento: La aplicación comenzará a analizar tu vídeo. Puedes seguir el progreso en el "Registro de Estado" en la parte inferior de la ventana. Esto puede tardar unos minutos, dependiendo de la duración del vídeo.

Cuando el proceso termine, el Reproductor de Vídeo con Descripciones se abrirá automáticamente, ¡y podrás empezar a disfrutar de tu vídeo recién descrito!

Características Principales

El Reproductor de Vídeo con Descripciones

Este es tu cine personal con descripciones. Mientras el vídeo se reproduce normalmente, tu lector de pantalla instalado (como JAWS o NVDA) leerá las audiodescripciones generadas en los momentos correctos.

Gestionar Plantillas de Instrucciones (Prompts)

Las instrucciones (o prompts) son directrices potentes que determinan en qué se enfoca la IA. Cambiando la instrucción, puedes obtener descripciones con estilos muy diferentes.

Preguntar Más Sobre la Escena

¿Alguna vez te has preguntado qué sostiene un personaje o qué dice un cartel en el fondo? Esta función te permite preguntar cualquier cosa que se te ocurra sobre la escena.

  1. Pausa el vídeo en el momento que te cause curiosidad.
  2. Haz clic en el botón Preguntar Más....
  3. Escribe tu pregunta en el campo "Tu Nueva Pregunta:" (p. ej., "¿De qué color es el sombrero de la mujer?" o "¿Qué pone en el cartel de la pared?").
  4. Selecciona cuántos segundos de vídeo debe analizar la IA, a partir de la posición actual del cursor.
  5. Haz clic en "Enviar Pregunta". La respuesta de la IA aparecerá en el área de "Historial de la Conversación".

Explorador de Escenas

El Explorador de Escenas es una forma interactiva de entender la disposición espacial de una escena. Te coloca en una sala virtual que puedes recorrer con el teclado.

  1. Pausa el vídeo en una escena que quieras explorar en detalle.
  2. Haz clic en el botón Explorar Escena... y luego en "Analizar Escena".

Ahora estás en el Explorador de Escenas. Usa tu teclado para explorar:

Exportar tu Trabajo

Cuando estés satisfecho con tus descripciones, puedes exportarlas desde la Ventana del Reproductor en diferentes formatos:

Un Vistazo a la Configuración Avanzada

La ventana de Configuración (Ctrl + ,) te da un control minucioso sobre el comportamiento de Omni Describer.

Pestaña de Configuración de IA

Pestaña de Salida de Audio

Consejos y Trucos para los Mejores Resultados

Crear grandes audiodescripciones es un arte. Aunque la IA es un asistente eficaz en este arte, obtendrás los mejores resultados si la guías correctamente.

El Poder de las Instrucciones: Tus Notas de Director

La aplicación enseña a la IA una serie de reglas fundamentales (como no hablar sobre los diálogos). Piensa en el área de Plantilla de Instrucción de la pantalla principal como el lugar donde dejas tus notas de director para ese vídeo en concreto. Una buena nota ayuda a la IA a centrarse en un estilo o detalle, mientras que una instrucción ambigua puede llevar a resultados inesperados.

¿Cuándo (y Cómo) Usar una Instrucción?

La mayoría de las veces, la IA puede producir resultados excelentes sin una instrucción especial, basándose únicamente en sus reglas fundamentales. Te recomiendo usar esta función solo cuando tengas un objetivo específico en mente.

Consejo #1: La Instrucción "Enfócate en los Nombres"
En un vídeo con muchos personajes donde los nombres son importantes, la IA a veces puede dudar en usar un nombre. Para priorizar el seguimiento de nombres, puedes crear una instrucción personalizada: Para este vídeo, tu máxima prioridad es identificar y usar los nombres correctos de los personajes tan pronto como se digan en el diálogo. Esto es más importante que ser demasiado conciso. Mientras te centras en esto, intenta cumplir el resto de las reglas del sistema lo mejor que puedas.
Consejo #2: La Instrucción "Describe la Atmósfera"
En películas visualmente ricas donde la atmósfera es clave, puedes guiar a la IA para que se centre en el entorno: Concéntrate en describir el escenario, la atmósfera y los detalles ambientales. Para crear un mundo visual rico, menciona la iluminación, los colores y el estado de ánimo general de la escena. Presta menos atención a los movimientos menores de los personajes a menos que sean críticos.

¿Qué Evitar en las Instrucciones?

Para obtener los mejores resultados, es importante evitar instrucciones que contradigan los principios de funcionamiento básicos de la IA. Como la IA siempre intenta seguir las instrucciones, darle una instrucción errónea puede hacer que malinterprete el vídeo.

En resumen: Usa las instrucciones no para cambiar las reglas fundamentales de una buena audiodescripción, sino para guiar a la IA en un enfoque específico.

Preguntas Frecuentes (FAQ)

P: ¿Están seguras mis claves de API?
R: Sí. Tus claves se almacenan solo en tu ordenador y nunca se comparten con nadie, excepto para conectarse a los servicios de Google/OpenAI.

P: ¿Por qué tarda tanto en generar las descripciones?
R: El tiempo depende de la duración de tu vídeo, tu velocidad de internet (para subir el vídeo a la IA), la tasa de fotogramas que hayas seleccionado y la carga actual de los servicios de IA. Se recomienda encarecidamente usar la función "Activar Fragmentación de Vídeo" para vídeos largos.

P: ¿Por qué la IA no describió algo que vi en pantalla?
R: La IA está entrenada para preferir el silencio antes que cometer un error o hablar sobre un diálogo. Puedes usar la función "Preguntar Más..." para consultar sobre momentos específicos o seleccionar el nivel de detalle "Detallado" en la Configuración.

Atajos de Teclado

Agradecimientos, Contacto y Colaboradores

¡Muchas gracias por usar Omni Describer! Esta aplicación es un reflejo de mi deseo de hacer los medios visuales más accesibles y agradables para todos. Que usuarios como tú usen esta herramienta y den su opinión es la mayor motivación para seguir desarrollándola.

Comentarios y Soporte

¿Tienes una pregunta, un informe de error o una idea para una nueva función? ¡Me encantaría saber de ti! La mejor manera de contactarme es por correo electrónico. Tus comentarios son invaluables para hacer que Omni Describer sea aún mejor.