Guia do Utilizador do Omni Describer

Dando voz ao mundo visual com IA.

Tudo começou com o meu amor pelo cinema. Quando percebi quantos detalhes nas minhas cenas favoritas se perdiam sem uma boa descrição áudio, surgiu uma ideia: "Bem, não poderia a IA facilitar isto para nós?" Sonhei com uma ferramenta que não só gerasse descrições, mas que também desse controlo total ao utilizador. Após meses de trabalho intenso, inúmeros testes e a superação de muitos obstáculos técnicos, desenvolvi o Omni Describer como o produto desse sonho.

Índice

O que significa o nome?

O "Omni" no nome vem do latim, significando "tudo" ou "todas as coisas". Escolhi este nome porque não queria que a ferramenta servisse apenas para um propósito. Sim, o Omni Describer visa principalmente tornar os media acessíveis a pessoas cegas e com deficiência visual, criando descrições áudio. Contudo, o seu propósito não se limita a isso.

É também uma ferramenta de exploração. Um crítico de cinema, um estudante, um artista, ou qualquer pessoa curiosa sobre detalhes visuais pode usar funcionalidades como o "Explorador de Cena" ou o "Perguntar Mais" para mergulhar nas camadas de um vídeo como nunca antes. O Omni Describer é uma janela para ver o mundo através dos "olhos" da IA e compreendê-lo de forma diferente. Em suma, é "um descritor para tudo, para todos".

Requisitos do Sistema

Para obter o melhor desempenho do Omni Describer, recomendo cumprir os seguintes requisitos mínimos de sistema:

Primeiros Passos: Configurar as Chaves API

O Omni Describer usa serviços de IA baseados na cloud para analisar e gerar descrições áudio. Por isso, precisa de introduzir as suas próprias chaves API antes de começar.

  1. Abrir Configurações: Vá ao menu Ficheiro e selecione Configurações... (ou pressione Ctrl + ,).
  2. Separador Configurações de IA:
    • Chave API Gemini: Esta é obrigatória para análise de vídeo. Cole a sua chave no campo "Chave API Gemini:". Pode obter uma chave gratuita em Google AI Studio.
    • Chave API OpenAI (para TTS): Necessária para conversão de texto em fala de alta qualidade. Cole a sua chave neste campo. Pode usar as vozes incorporadas do Windows sem esta chave, mas recomenda-se a OpenAI para melhores resultados. Pode obter uma chave na Plataforma OpenAI.
  3. Guardar: Clique em Aplicar ou OK para guardar as configurações. Está pronto a usar!
Armazenamento Seguro: As suas chaves API são encriptadas e armazenadas com segurança no seu computador, no ficheiro de configurações da aplicação. Nunca são enviadas para outro local, exceto para conectar diretamente aos respetivos serviços de IA.

Início Rápido: Gerar a Primeira Descrição

Vamos começar! Basta seguir estes passos simples:

  1. Escolher um Vídeo: Clique num botão como "Ficheiro de Vídeo Local" na janela principal ou selecione a fonte do vídeo no menu Ficheiro.
  2. Selecionar um Prompt (Opcional): O menu suspenso lista instruções pré-definidas que orientam a IA. Para o primeiro teste, deixar em "(Nenhum Preset Selecionado)" é uma boa escolha.
  3. Iniciar o Processamento: A aplicação começará a analisar o vídeo. Pode acompanhar o progresso no "Registo de Estado" na parte inferior da janela. Isto pode levar alguns minutos, dependendo da duração do vídeo.

Quando o processo terminar, o Leitor de Vídeo Descrito abrir-se-á automaticamente, e poderá começar a desfrutar do seu vídeo descrito!

Funcionalidades Principais

O Leitor de Vídeo Descrito

Este é o seu cinema pessoal descrito. À medida que o vídeo avança, o seu leitor de ecrã instalado (como JAWS ou NVDA) irá ler as descrições áudio geradas nos momentos certos.

Editar Descrições: O Poder de Refinar

A IA fornece um ótimo ponto de partida, mas a qualidade real vem do refinamento. O botão "Editar Descrições..." no leitor abre um editor poderoso que lhe dá controlo total sobre cada aspecto do seu projeto.

Guarde o Seu Trabalho: As alterações feitas no editor (adicionar, eliminar, modificar) são aplicadas instantaneamente à sessão atual. Quando terminar, clique em "Fechar" para voltar ao leitor. A lista atualizada será usada na reprodução e nas exportações seguintes.

Gerir Presets de Prompt

Os prompts são instruções poderosas que determinam no que a IA deve focar. Ao mudar o prompt, pode obter descrições em estilos muito diferentes.

Perguntar Mais Sobre a Cena

Já quis saber o que uma personagem está a segurar ou o que diz uma placa ao fundo? Esta funcionalidade deixa-o perguntar qualquer coisa sobre a cena.

  1. Pausa o vídeo no momento que tem interesse.
  2. Clique no botão Perguntar Mais....
  3. Escreva a sua pergunta no campo "A Sua Nova Pergunta:" (ex.: "De que cor é o chapéu da mulher?" ou "O que está escrito na parede?").
  4. Selecione quantos segundos de vídeo a IA deve analisar à volta do tempo atual.
  5. Clique em "Enviar Pergunta". A resposta da IA aparecerá na área "Histórico da Conversa".

Explorador de Cena

O Explorador de Cena é uma forma interativa de compreender o layout espacial de uma cena. Coloca-o numa sala virtual que pode navegar com o teclado.

  1. Pausa o vídeo numa cena que quer explorar em detalhe.
  2. Clique no botão Explorar Cena..., depois em "Analisar Cena".

Está agora no Explorador de Cena. Use o teclado para explorar:

Exportar o Seu Trabalho

Quando estiver satisfeito com as suas descrições, pode exportá-las a partir da Janela do Leitor em diferentes formatos:

Um Mergulho Profundo nas Configurações

A janela Configurações (Ctrl + ,) oferece controlo detalhado sobre o comportamento da aplicação.

Separador Geral

Separador Configurações de IA

Separador Saída de Áudio

Dicas e Truques para os Melhores Resultados

Criar boas descrições áudio é uma arte. Embora a IA seja uma assistente eficaz, obterá melhores resultados quando a orientar corretamente.

O Poder dos Prompts: As Notas do Seu Diretor

A aplicação tem um conjunto de regras fundamentais que ensina à IA (como não falar sobre diálogos). Pense na área Preset de Prompt na tela principal como o local onde fornece as suas notas de diretor para aquele vídeo específico. Uma boa nota ajuda a IA a focar num estilo ou detalhe particular.
Dica: O Prompt "Focar em Nomes"
Num vídeo com muitos personagens, pode criar um prompt personalizado para priorizar o reconhecimento de nomes: A sua prioridade máxima neste vídeo é identificar e usar os nomes corretos das personagens assim que forem mencionados.
Dica: O Prompt "Descrever a Atmosfera"
Para filmes visualmente ricos, guie a IA para focar no ambiente: Concentre-se em descrever o cenário, a atmosfera e os detalhes ambientais. Mencione a iluminação, cores e o humor geral da cena.

O Que Evitar nos Prompts

Evite instruções que contradigam os princípios fundamentais da IA (descrever apenas o visual, não falar sobre diálogos). Dar uma instrução errada pode causar resultados pobres.

Em suma: Use os prompts para orientar o foco da IA, não para alterar as regras fundamentais de uma boa descrição áudio.

Perguntas Frequentes (FAQ)

P: As minhas chaves API não funcionam. O que devo fazer?
R: Primeiro, verifique se copiou a chave completa corretamente. Para a OpenAI, certifique-se de que tem um método de pagamento configurado, pois o serviço TTS não é gratuito. Para Gemini, verifique se a API está ativada no seu projeto Google Cloud.

P: O processo falhou com um erro "MAX_TOKENS". O que significa?
R: Significa que o seu vídeo é demasiado longo ou complexo para a IA processar numa única passagem. É um limite de capacidade, não um erro de conteúdo. A melhor solução é ir a Configurações -> Configurações de IA e ativar "Divisão de Vídeo". Isso dividirá o vídeo em partes menores para a IA.

P: A IA não gerou descrições devido a "Filtros de Segurança". O que posso fazer?
R: Este é um problema conhecido em que o sistema de segurança da IA pode ser demasiado cauteloso. Tem algumas opções: 1) Vá a Configurações -> Configurações de IA e ative "Desativar Filtros de Segurança" (muitas vezes ajuda). 2) Se não funcionar, tente reduzir a "Taxa de Frames para Análise IA". 3) Em último caso, pode usar a configuração "Substituição do Modelo Gemini" e introduzir gemini-2.5-pro. Este modelo é mais poderoso, pode lidar melhor com conteúdos sensíveis, mas é mais lento e pode ser mais caro se estiver numa API paga.

P: Algumas das minhas vozes antigas desapareceram da lista SAPI5. Para onde foram?
R: Os sistemas modernos Windows são 64-bit, mas muitas vozes clássicas e queridas eram 32-bit. Em Configurações, no separador "Saída de Áudio", verá opções separadas para "SAPI5 (64-bit)" e "SAPI5 (32-bit)". Para aceder às vozes antigas, basta escolher o motor 32-bit.

P: Porque é que a geração de descrições demora tanto?
R: O tempo depende da duração do vídeo, da sua velocidade de internet (para o upload para a IA), da taxa de frames selecionada e da carga atual dos serviços de IA. Usar "Divisão de Vídeo" é muito recomendado para vídeos longos.

Atalhos de Teclado

Agradecimentos, Contactos e Colaboradores

Muito obrigado por usar o Omni Describer! Esta aplicação reflete o meu desejo de tornar os media visuais mais acessíveis e agradáveis para todos. Ter utilizadores como você a usar esta ferramenta e a fornecer feedback é a maior motivação para continuar a desenvolvê-la.

Feedback e Suporte

Tem alguma pergunta, um relatório de erro ou uma ideia para uma nova funcionalidade? Gostaria muito de ouvir! A melhor forma de me contactar é por email. O seu feedback é inestimável para tornar o Omni Describer ainda melhor.