Guía de Usuario de Omni Describer
Dando Voz al Mundo Visual con IA.
Todo comenzó con mi amor por el cine. Cuando me di cuenta de cuántos detalles de mis escenas favoritas se perdían sin una buena audiodescripción, me surgió una idea: "Bueno, ¿no podría la IA facilitarnos este trabajo?". Soñé con una herramienta que no solo generara descripciones, sino que también diera al usuario un control creativo total. Tras meses de intenso trabajo, innumerables pruebas y muchos obstáculos técnicos superados, desarrollé Omni Describer como el producto de ese sueño.
Índice de Contenidos
¿Qué Significa el Nombre?
El "Omni" en el nombre viene del latín y significa "todo" o "la totalidad". Elegí este nombre porque no quería que la herramienta sirviera para un único propósito. Sí, Omni Describer tiene como objetivo principal hacer los medios accesibles para personas ciegas y con discapacidad visual creando audiodescripciones. Sin embargo, su propósito no se limita a eso.
Esta es también una herramienta de exploración. Un crítico de cine, un estudiante, un artista o cualquier persona con curiosidad por los detalles visuales puede usar funciones como el "Explorador de Escenas" o "Preguntar Más" para sumergirse en las capas de un vídeo como nunca antes. Omni Describer es una ventana para ver el mundo a través de los "ojos" de la IA y entenderlo de una forma diferente. En resumen, es "un descriptor para todo, para todos".
Requisitos del Sistema
Para obtener el mejor rendimiento de Omni Describer, te recomiendo cumplir los siguientes requisitos mínimos del sistema:
- Sistema Operativo: Windows 10 o superior (64-bit).
- Memoria (RAM): Al menos 4 GB de RAM.
- Almacenamiento: Al menos 500 MB de espacio libre en disco para la aplicación y los archivos temporales.
- Conexión a Internet: Se requiere una conexión a internet activa para conectarse a los servicios de IA (Google Gemini, OpenAI) y descargar vídeos.
- Lector de Pantalla: Para una accesibilidad completa, se recomienda un lector de pantalla como JAWS, NVDA o el Narrador de Windows.
Primeros Pasos: Configurar tus Claves de API
Omni Describer utiliza servicios de inteligencia artificial en la nube para analizar y locutar las descripciones. Por lo tanto, necesitas introducir tus propias claves de API antes de poder empezar.
- Abrir Configuración: Ve al menú Archivo y selecciona Configuración... (o pulsa Ctrl + ,).
- Pestaña de Configuración de IA:
- Clave de API de Gemini: Es obligatoria para el análisis de vídeo. Pega tu clave en el campo "Clave de API de Gemini:". Puedes obtener una clave gratuita en Google AI Studio.
- Clave de API de OpenAI (para TTS): Se necesita para la síntesis de voz (TTS) de alta calidad. Pega tu clave en este campo. Aún puedes usar las voces integradas de Windows sin esta clave, pero se recomienda OpenAI para obtener los mejores resultados. Puedes obtener una clave en la Plataforma de OpenAI.
- Guardar: Haz clic en Aplicar u OK para guardar tu configuración. ¡Ya estás listo!
Recuerda: Tus claves de API se guardan de forma segura en tu ordenador, en el archivo de configuración de la aplicación, y nunca se envían a ningún otro lugar, excepto para conectarse a los servicios de IA correspondientes.
Inicio Rápido: Generar tu Primera Descripción
¿Listo para empezar? Solo tienes que seguir estos sencillos pasos:
- Elige un Vídeo: Haz clic en un botón como "Archivo de Vídeo Local" en la ventana principal o selecciona tu fuente de vídeo desde el menú Archivo.
- Selecciona una Plantilla de Instrucción (Opcional): El menú desplegable lista instrucciones predefinidas que guían a la IA. Para tu primer intento, "Descripción Estándar" es un excelente punto de partida.
- Inicia el Procesamiento: La aplicación comenzará a analizar tu vídeo. Puedes seguir el progreso en el "Registro de Estado" en la parte inferior de la ventana. Esto puede tardar unos minutos, dependiendo de la duración del vídeo.
Cuando el proceso termine, el Reproductor de Vídeo con Descripciones se abrirá automáticamente, ¡y podrás empezar a disfrutar de tu vídeo recién descrito!
Características Principales
El Reproductor de Vídeo con Descripciones
Este es tu cine personal con descripciones. Mientras el vídeo se reproduce normalmente, tu lector de pantalla instalado (como JAWS o NVDA) leerá las audiodescripciones generadas en los momentos correctos.
- Controles de Reproducción: Usa los botones de Reproducir/Pausa, Retroceder/Avanzar o la barra de desplazamiento para navegar por el vídeo.
- Área de Descripción de Audio Actual: Aquí puedes seguir el texto de la descripción activa en cada momento.
- Editar Descripciones: Si una descripción es incorrecta, está mal sincronizada o quieres eliminarla, haz clic en el botón "Editar Descripciones..." para corregirla o borrarla fácilmente.
- Uso de Tokens de IA: Esta área te muestra cuántos "tokens" de IA se usaron durante el proceso, ayudándote a llevar un control de tu uso de la API.
Gestionar Plantillas de Instrucciones (Prompts)
Las instrucciones (o prompts) son directrices potentes que determinan en qué se enfoca la IA. Cambiando la instrucción, puedes obtener descripciones con estilos muy diferentes.
- Seleccionar una Plantilla: Antes de procesar un vídeo, elige una plantilla del menú desplegable en la ventana principal.
- Gestionar Plantillas: Ve a Archivo -> Gestionar Plantillas de Instrucciones.... Aquí puedes Añadir, Editar o Eliminar tus propias instrucciones personalizadas. Es perfecto para guardar las que usas con más frecuencia.
- Específicas del Idioma: Tus plantillas de instrucciones se guardan por separado para cada idioma que selecciones en la Configuración.
Preguntar Más Sobre la Escena
¿Alguna vez te has preguntado qué sostiene un personaje o qué dice un cartel en el fondo? Esta función te permite preguntar cualquier cosa que se te ocurra sobre la escena.
- Pausa el vídeo en el momento que te cause curiosidad.
- Haz clic en el botón Preguntar Más....
- Escribe tu pregunta en el campo "Tu Nueva Pregunta:" (p. ej., "¿De qué color es el sombrero de la mujer?" o "¿Qué pone en el cartel de la pared?").
- Selecciona cuántos segundos de vídeo debe analizar la IA, a partir de la posición actual del cursor.
- Haz clic en "Enviar Pregunta". La respuesta de la IA aparecerá en el área de "Historial de la Conversación".
Explorador de Escenas
El Explorador de Escenas es una forma interactiva de entender la disposición espacial de una escena. Te coloca en una sala virtual que puedes recorrer con el teclado.
- Pausa el vídeo en una escena que quieras explorar en detalle.
- Haz clic en el botón Explorar Escena... y luego en "Analizar Escena".
Ahora estás en el Explorador de Escenas. Usa tu teclado para explorar:
- Teclas de Flecha: Mueve tu posición virtual en una cuadrícula.
- D: Proporciona una descripción detallada de la disposición general de la escena.
- L: Anuncia una lista de todos los objetos en la escena.
- Shift + L: Cambia al "Modo de Salto" para seleccionar un objeto e ir directamente a él.
- Enter: Obtén una descripción detallada del objeto más cercano.
- Escape: Cierra el Explorador de Escenas.
Exportar tu Trabajo
Cuando estés satisfecho con tus descripciones, puedes exportarlas desde la Ventana del Reproductor en diferentes formatos:
- Exportar a .TXT: Un archivo de texto simple con marcas de tiempo.
- Exportar a .SRT: Un archivo de subtítulos estándar que puedes usar en reproductores de vídeo como VLC.
- Exportar Audio (MP3): Quizás la función más emocionante. Locuta tus descripciones con la voz que seleccionaste en Configuración (SAPI5 u OpenAI), la mezcla con el audio original del vídeo y baja automáticamente el sonido de fondo durante las descripciones para crear un archivo MP3 listo para escuchar en cualquier lugar.
Un Vistazo a la Configuración Avanzada
La ventana de Configuración (Ctrl + ,) te da un control minucioso sobre el comportamiento de Omni Describer.
Pestaña de Configuración de IA
- Tasa de Fotogramas para Análisis de IA: Determina el número de fotogramas por segundo que se envían a la IA. Un valor más bajo (p. ej., 5 FPS) puede reducir los costes de la API, pero introduce la posibilidad de omitir acciones muy rápidas.
- Enviar Vídeo Solo (Sin Audio) a la IA: Esta es una opción útil para evitar que el audio del vídeo (diálogos, música, efectos) confunda a la IA. En lugar de intentar describir una explosión que oye, la IA se centrará solo en lo que ocurre visualmente.
- Desactivar Filtros de Seguridad (Usar con precaución): Esta opción puede permitir a la IA procesar contenido y generar descripciones que normalmente marcaría como sensibles. Sin embargo, esto no es un pase libre absoluto. El resultado final sigue estando sujeto a las políticas de seguridad fundamentales de Google, y no hay garantía de que todos los filtros se omitan. Recuerda que eres responsable de cómo utilizas esta función.
Pestaña de Salida de Audio
- Motor de Síntesis de Voz (TTS):
- SAPI5 (Integrado en Windows): Usa las voces compatibles con SAPI5 que vienen con Windows o que hayas instalado. No requiere una clave de API adicional. La calidad del audio variará según la calidad de las voces instaladas en tu sistema.
- OpenAI TTS (Alta Calidad): Generalmente produce voces más naturales y fluidas. Usar esta opción requiere una clave de API de OpenAI y un método de pago asociado a tu cuenta.
Consejos y Trucos para los Mejores Resultados
Crear grandes audiodescripciones es un arte. Aunque la IA es un asistente eficaz en este arte, obtendrás los mejores resultados si la guías correctamente.
El Poder de las Instrucciones: Tus Notas de Director
La aplicación enseña a la IA una serie de reglas fundamentales (como no hablar sobre los diálogos). Piensa en el área de Plantilla de Instrucción de la pantalla principal como el lugar donde dejas tus notas de director para ese vídeo en concreto. Una buena nota ayuda a la IA a centrarse en un estilo o detalle, mientras que una instrucción ambigua puede llevar a resultados inesperados.
¿Cuándo (y Cómo) Usar una Instrucción?
La mayoría de las veces, la IA puede producir resultados excelentes sin una instrucción especial, basándose únicamente en sus reglas fundamentales. Te recomiendo usar esta función solo cuando tengas un objetivo específico en mente.
Consejo #1: La Instrucción "Enfócate en los Nombres"
En un vídeo con muchos personajes donde los nombres son importantes, la IA a veces puede dudar en usar un nombre. Para priorizar el seguimiento de nombres, puedes crear una instrucción personalizada:
Para este vídeo, tu máxima prioridad es identificar y usar los nombres correctos de los personajes tan pronto como se digan en el diálogo. Esto es más importante que ser demasiado conciso. Mientras te centras en esto, intenta cumplir el resto de las reglas del sistema lo mejor que puedas.
Consejo #2: La Instrucción "Describe la Atmósfera"
En películas visualmente ricas donde la atmósfera es clave, puedes guiar a la IA para que se centre en el entorno:
Concéntrate en describir el escenario, la atmósfera y los detalles ambientales. Para crear un mundo visual rico, menciona la iluminación, los colores y el estado de ánimo general de la escena. Presta menos atención a los movimientos menores de los personajes a menos que sean críticos.
¿Qué Evitar en las Instrucciones?
Para obtener los mejores resultados, es importante evitar instrucciones que contradigan los principios de funcionamiento básicos de la IA. Como la IA siempre intenta seguir las instrucciones, darle una instrucción errónea puede hacer que malinterprete el vídeo.
- Ejemplo de Instrucción Incorrecta:
"Cuéntame todo lo que pasa." Esto puede hacer que la IA sea demasiado insensible, haciendo que se centre en detalles sin importancia como "(el personaje está hablando)" en lugar de la acción significativa.
- Ejemplo de Instrucción Incorrecta:
"Dime qué dicen los personajes." Esto puede hacer que viole la regla de "describir solo lo visual" y que describa los diálogos, como "el personaje dijo que cogiera esto."
En resumen: Usa las instrucciones no para cambiar las reglas fundamentales de una buena audiodescripción, sino para guiar a la IA en un enfoque específico.
Preguntas Frecuentes (FAQ)
P: ¿Están seguras mis claves de API?
R: Sí. Tus claves se almacenan solo en tu ordenador y nunca se comparten con nadie, excepto para conectarse a los servicios de Google/OpenAI.
P: ¿Por qué tarda tanto en generar las descripciones?
R: El tiempo depende de la duración de tu vídeo, tu velocidad de internet (para subir el vídeo a la IA), la tasa de fotogramas que hayas seleccionado y la carga actual de los servicios de IA. Se recomienda encarecidamente usar la función "Activar Fragmentación de Vídeo" para vídeos largos.
P: ¿Por qué la IA no describió algo que vi en pantalla?
R: La IA está entrenada para preferir el silencio antes que cometer un error o hablar sobre un diálogo. Puedes usar la función "Preguntar Más..." para consultar sobre momentos específicos o seleccionar el nivel de detalle "Detallado" en la Configuración.
Atajos de Teclado
- Ctrl + O: Abrir Vídeo Local
- Ctrl + U: Abrir desde URL Directa
- Ctrl + Y: Abrir desde YouTube
- Ctrl + ,: Abrir Configuración
- F1: Ver Ayuda
¡Muchas gracias por usar Omni Describer! Esta aplicación es un reflejo de mi deseo de hacer los medios visuales más accesibles y agradables para todos. Que usuarios como tú usen esta herramienta y den su opinión es la mayor motivación para seguir desarrollándola.
Comentarios y Soporte
¿Tienes una pregunta, un informe de error o una idea para una nueva función? ¡Me encantaría saber de ti! La mejor manera de contactarme es por correo electrónico. Tus comentarios son invaluables para hacer que Omni Describer sea aún mejor.