Руководство пользователя Omni Describer

Даём голос визуальному миру с помощью ИИ.

Всё началось с моей любви к кино. Когда я понял, сколько деталей в моих любимых сценах теряется без хорошего аудиоописания, мне пришла в голову идея: "А не мог бы ИИ облегчить нам эту задачу?". Я мечтал об инструменте, который не просто создавал бы описания, но и давал бы пользователю полный творческий контроль. После месяцев напряжённой работы, бесчисленных испытаний и преодоления многих технических препятствий я разработал Omni Describer как продукт этой мечты.

Содержание

Что означает название?

Слово "Omni" в названии происходит из латыни и означает "всё" или "целое". Я выбрал это название, потому что не хотел, чтобы инструмент служил только одной цели. Да, Omni Describer в первую очередь нацелен на то, чтобы сделать медиа доступными для незрячих и слабовидящих людей путём создания аудиоописаний. Однако его предназначение этим не ограничивается.

Это также инструмент для исследования. Кинокритик, студент, художник или любой, кто интересуется визуальными деталями, может использовать такие функции, как "Исследователь сцен" или "Узнать больше", чтобы погрузиться в слои видео так, как никогда раньше. Omni Describer — это окно, чтобы увидеть мир "глазами" ИИ и понять его по-другому. Короче говоря, это "описатель для всего, для всех".

Системные требования

Для лучшей производительности Omni Describer я рекомендую соответствовать следующим минимальным системным требованиям:

Начало работы: Настройка ваших API-ключей

Omni Describer использует облачные сервисы искусственного интеллекта для анализа и озвучивания описаний. Поэтому перед началом работы вам нужно ввести собственные API-ключи.

  1. Откройте настройки: Перейдите в меню Файл и выберите Настройки... (или нажмите Ctrl + ,).
  2. Вкладка "Настройки ИИ":
    • API-ключ Gemini: Обязателен для анализа видео. Вставьте свой ключ в поле "API-ключ Gemini:". Вы можете получить бесплатный ключ API в Google AI Studio.
    • API-ключ OpenAI (для TTS): Требуется для высококачественного синтеза речи (TTS). Вставьте свой ключ в это поле. Вы всё ещё можете использовать встроенные голоса Windows без этого ключа, но для лучших результатов рекомендуется OpenAI. Вы можете получить ключ на платформе OpenAI.
  3. Сохранить: Нажмите Применить или OK, чтобы сохранить настройки. Теперь вы готовы к работе!
Пожалуйста, обратите внимание: Ваши API-ключи хранятся надёжно на вашем компьютере в файле настроек приложения и никогда никуда не отправляются, кроме как для подключения к соответствующим сервисам ИИ.

Быстрый старт: Создание вашего первого описания

Готовы начать? Просто выполните эти простые шаги:

  1. Выберите видео: Нажмите кнопку, например, "Локальный видеофайл" в главном окне или выберите источник видео из меню "Файл".
  2. Выберите шаблон инструкции (необязательно): В выпадающем меню перечислены готовые инструкции, которые управляют ИИ. Для первой попытки "Стандартное описание" является отличным началом.
  3. Запустите обработку: Приложение начнёт анализировать ваше видео. Вы можете следить за прогрессом в "Журнале состояния" внизу окна. Это может занять несколько минут, в зависимости от продолжительности видео.

Когда процесс завершится, видеоплеер с описаниями откроется автоматически, и вы сможете наслаждаться вашим только что описанным видео!

Основные функции

Видеоплеер с описаниями

Это ваш личный кинотеатр с описаниями. Пока видео воспроизводится в обычном режиме, ваша установленная программа чтения с экрана (например, JAWS или NVDA) будет зачитывать сгенерированные аудиоописания в нужные моменты.

Управление шаблонами инструкций (промптами)

Инструкции (промпты) — это мощные указания, которые определяют, на чём фокусируется ИИ. Изменяя инструкцию, вы можете получить описания в совершенно разных стилях.

Узнать больше о сцене

Вы когда-нибудь задумывались, что держит персонаж или что написано на вывеске на заднем плане? Эта функция позволяет вам спросить всё, что придёт в голову о сцене.

  1. Приостановите видео в момент, который вас интересует.
  2. Нажмите кнопку Узнать больше....
  3. Введите свой вопрос в поле "Ваш новый вопрос:" (напр., "Какого цвета шляпа у женщины?" или "Что написано на стене?").
  4. Выберите, сколько секунд видео должен проанализировать ИИ, начиная с текущей позиции курсора.
  5. Нажмите "Отправить вопрос". Ответ ИИ появится в области "История разговора".

Исследователь сцен

Исследователь сцен — это интерактивный способ понять пространственное расположение сцены. Он помещает вас в виртуальную комнату, по которой вы можете перемещаться с помощью клавиатуры.

  1. Приостановите видео на сцене, которую вы хотите подробно исследовать.
  2. Нажмите кнопку Исследовать сцену..., а затем "Анализировать сцену".

Теперь вы в Исследователе сцен. Используйте клавиатуру для исследования:

Экспорт вашей работы

Когда вы довольны своими описаниями, вы можете экспортировать их из окна плеера в разных форматах:

Подробный обзор расширенных настроек

Окно настроек (Ctrl + ,) даёт вам детальный контроль над поведением Omni Describer.

Вкладка "Настройки ИИ"

Вкладка "Вывод аудио"

Советы и хитрости для лучших результатов

Создание отличных аудиоописаний — это искусство. Хотя ИИ является эффективным помощником в этом искусстве, вы получите лучшие результаты, если будете правильно его направлять.

Сила инструкций: Ваши режиссёрские заметки

Приложение имеет набор основных правил, которым оно обучает ИИ (например, не говорить поверх диалогов). Представьте область Шаблон инструкции на главном экране как место, где вы оставляете свои режиссёрские заметки для конкретного видео. Хорошая заметка помогает ИИ сосредоточиться на определённом стиле или детали, в то время как расплывчатая может привести к неожиданным результатам.

Когда (и как) использовать инструкцию?

В большинстве случаев ИИ может давать отличные результаты без специальной инструкции, полагаясь только на свои основные правила. Я рекомендую использовать эту функцию только тогда, когда у вас есть конкретная цель.

Совет №1: Инструкция "Сосредоточиться на именах"
В видео с большим количеством персонажей, где имена важны, ИИ иногда может колебаться использовать имя. Чтобы приоритизировать отслеживание имён, вы можете создать собственную инструкцию: Для этого видео твоим наивысшим приоритетом является идентификация и использование правильных имён персонажей, как только они будут произнесены в диалоге. Это важнее, чем быть слишком лаконичным. Сосредотачиваясь на этом, старайся придерживаться всех остальных системных правил как можно лучше.
Совет №2: Инструкция "Описать атмосферу"
В визуально насыщенных фильмах, где атмосфера является ключевой, вы можете направить ИИ сосредоточиться на окружении: Сосредоточься на описании обстановки, атмосферы и деталей окружения. Чтобы создать богатый визуальный мир, упомяни освещение, цвета и общее настроение сцены. Уделяй меньше внимания незначительным движениям персонажей, если они не являются критическими.

Чего следует избегать в инструкциях?

Для лучших результатов важно избегать инструкций, которые противоречат основным принципам работы ИИ. Поскольку ИИ всегда пытается следовать инструкциям, предоставление ему ошибочного указания может привести к неправильной интерпретации видео.

Короче говоря: Используйте инструкции не для того, чтобы изменять фундаментальные правила хорошего аудиоописания, а чтобы направить ИИ на конкретный фокус.

Часто задаваемые вопросы (FAQ)

В: Защищены ли мои API-ключи?
О: Да. Ваши ключи хранятся только на вашем компьютере и никогда никому не передаются, кроме как для подключения к сервисам Google/OpenAI.

В: Почему генерация описаний занимает так много времени?
О: Время зависит от продолжительности вашего видео, скорости вашего Интернета (для загрузки видео в ИИ), выбранной вами частоты кадров и текущей нагрузки на сервисы ИИ. Настоятельно рекомендуется использовать функцию "Включить фрагментацию видео" для длинных видео.

В: Почему ИИ не описал то, что я видел на экране?
О: ИИ обучен предпочитать тишину, чем делать ошибку или говорить поверх диалога. Вы можете использовать функцию "Узнать больше...", чтобы узнать о конкретных моментах, или выбрать уровень детализации "Подробный" в настройках.

Горячие клавиши

Благодарности, контакты и авторы

Большое спасибо за использование Omni Describer! Эта программа является отражением моего желания сделать визуальные медиа более доступными и приятными для всех. То, что пользователи, как вы, используют этот инструмент и предоставляют обратную связь, является для меня самой большой мотивацией продолжать его разработку.

Обратная связь и поддержка

У вас есть вопрос, сообщение об ошибке или идея для новой функции? Я был бы рад услышать от вас! Лучший способ связаться со мной — по электронной почте. Ваш отзыв бесценен для того, чтобы сделать Omni Describer ещё лучше.