Посібник користувача Omni Describer
Даруємо голос візуальному світу за допомогою ШІ.
Все почалося з моєї любові до кіно. Коли я зрозумів, скільки деталей у моїх улюблених сценах втрачається без хорошого аудіоопису, у мене виникла ідея: "А чи не міг би ШІ полегшити нам цю роботу?". Я мріяв про інструмент, який не просто генерував би описи, але й давав би користувачеві повний творчий контроль. Після місяців напруженої роботи, незліченних випробувань і подолання багатьох технічних перешкод я розробив Omni Describer як продукт цієї мрії.
Зміст
Що означає назва?
Слово "Omni" в назві походить з латини і означає "все" або "сукупність". Я обрав цю назву, бо не хотів, щоб інструмент служив лише одній меті. Так, Omni Describer насамперед спрямований на те, щоб зробити медіа доступними для незрячих та людей з вадами зору шляхом створення аудіоописів. Однак його призначення цим не обмежується.
Це також інструмент для дослідження. Кінокритик, студент, художник або будь-хто, хто цікавиться візуальними деталями, може використовувати такі функції, як "Дослідник сцен" або "Запитати більше", щоб зануритися у шари відео як ніколи раніше. Omni Describer — це вікно, щоб побачити світ "очима" ШІ та зрозуміти його по-іншому. Коротше кажучи, це "описувач для всього, для кожного".
Системні вимоги
Для найкращої продуктивності Omni Describer я рекомендую відповідати таким мінімальним системним вимогам:
- Операційна система: Windows 10 або новіша (64-розрядна).
- Оперативна пам'ять (RAM): щонайменше 4 ГБ.
- Накопичувач: щонайменше 500 МБ вільного місця на диску для програми та тимчасових файлів.
- Підключення до Інтернету: Для підключення до сервісів ШІ (Google Gemini, OpenAI) та завантаження відео потрібне активне інтернет-з'єднання.
- Програма зчитування з екрана: Для повної доступності рекомендується програма зчитування з екрана, наприклад JAWS, NVDA або Екранний диктор Windows.
Початок роботи: Налаштування ключів API
Omni Describer використовує хмарні сервіси штучного інтелекту для аналізу та озвучення описів. Тому перед початком роботи вам потрібно ввести власні ключі API.
- Відкрийте налаштування: Перейдіть до меню Файл і виберіть Налаштування... (або натисніть Ctrl + ,).
- Вкладка "Налаштування ШІ":
- Ключ API Gemini: Обов'язковий для аналізу відео. Вставте свій ключ у поле "Ключ API Gemini:". Ви можете отримати безкоштовний ключ API у Google AI Studio.
- Ключ API OpenAI (для TTS): Необхідний для високоякісного синтезу мовлення. Вставте свій ключ у це поле. Ви все ще можете використовувати вбудовані голоси Windows без цього ключа, але для найкращих результатів рекомендується OpenAI. Ви можете отримати ключ на платформі OpenAI.
- Зберегти: Натисніть Застосувати або OK, щоб зберегти налаштування. Тепер ви готові до роботи!
Будь ласка, зверніть увагу: Ваші ключі API зберігаються надійно на вашому комп'ютері у файлі налаштувань програми і ніколи не надсилаються нікуди, окрім як для підключення до відповідних сервісів ШІ.
Швидкий старт: Створення вашого першого опису
Готові почати? Просто виконайте ці прості кроки:
- Оберіть відео: Натисніть кнопку, наприклад, "Локальний відеофайл" у головному вікні або виберіть джерело відео з меню "Файл".
- Виберіть шаблон інструкції (необов'язково): У випадаючому меню перелічені готові інструкції, які керують ШІ. Для першої спроби "Стандартний опис" є чудовим початком.
- Запустіть обробку: Програма почне аналізувати ваше відео. Ви можете стежити за прогресом у "Журналі стану" внизу вікна. Це може зайняти кілька хвилин, залежно від тривалості відео.
Коли процес завершиться, відеоплеєр з описами відкриється автоматично, і ви зможете насолоджуватися вашим щойно описаним відео!
Основні функції
Відеоплеєр з описами
Це ваш особистий кінотеатр з описами. Поки відео відтворюється у звичайному режимі, ваша встановлена програма зчитування з екрана (наприклад, JAWS або NVDA) читатиме згенеровані аудіоописи в потрібні моменти.
- Елементи керування відтворенням: Використовуйте кнопки "Відтворити/Пауза", "Перемотати назад/вперед" або повзунок для навігації по відео.
- Область поточного аудіоопису: Тут ви можете стежити за текстом активного на даний момент опису.
- Редагувати описи: Якщо опис неточний, має неправильний таймінг або ви хочете його видалити, натисніть кнопку "Редагувати описи...", щоб легко виправити або видалити його.
- Використання токенів ШІ: Ця область показує, скільки "токенів" ШІ було використано під час процесу, допомагаючи вам відстежувати використання API.
Керування шаблонами інструкцій (промптами)
Інструкції (промпти) — це потужні вказівки, які визначають, на чому зосереджується ШІ. Змінюючи інструкцію, ви можете отримати описи в абсолютно різних стилях.
- Вибір шаблону: Перед обробкою відео оберіть шаблон із випадаючого меню в головному вікні.
- Керування шаблонами: Перейдіть до Файл -> Керувати шаблонами інструкцій.... Тут ви можете додавати, редагувати або видаляти власні інструкції. Це ідеально підходить для збереження інструкцій, якими ви часто користуєтесь.
- Специфічні для мови: Ваші шаблони інструкцій зберігаються окремо для кожної мови, яку ви обираєте в налаштуваннях.
Запитати більше про сцену
Ви коли-небудь замислювалися, що тримає персонаж або що написано на вивісці на задньому плані? Ця функція дозволяє вам запитати все, що спаде на думку про сцену.
- Призупиніть відео в момент, який вас цікавить.
- Натисніть кнопку Запитати більше....
- Введіть своє запитання в поле "Ваше нове запитання:" (напр., "Якого кольору капелюх у жінки?" або "Що написано на стіні?").
- Виберіть, скільки секунд відео має проаналізувати ШІ, починаючи з поточної позиції курсора.
- Натисніть "Надіслати запитання". Відповідь ШІ з'явиться в області "Історія розмови".
Дослідник сцен
Дослідник сцен — це інтерактивний спосіб зрозуміти просторове розташування сцени. Він поміщає вас у віртуальну кімнату, якою ви можете переміщатися за допомогою клавіатури.
- Призупиніть відео на сцені, яку ви хочете детально дослідити.
- Натисніть кнопку Дослідити сцену..., а потім "Аналізувати сцену".
Тепер ви в Досліднику сцен. Використовуйте клавіатуру для дослідження:
- Клавіші зі стрілками: Переміщують вашу віртуальну позицію по сітці.
- D: Надає детальний опис загального плану сцени.
- L: Оголошує список усіх об'єктів у сцені.
- Shift + L: Перехід у "Режим стрибка", щоб вибрати об'єкт і перейти безпосередньо до нього.
- Enter: Отримати детальний опис найближчого об'єкта.
- Escape: Закрити Дослідник сцен.
Експорт вашої роботи
Коли ви задоволені своїми описами, ви можете експортувати їх з вікна плеєра в різних форматах:
- Експорт у .TXT: Простий текстовий файл з часовими мітками.
- Експорт у .SRT: Стандартний файл субтитрів, який можна використовувати у відеоплеєрах, таких як VLC.
- Експорт аудіо (MP3): Можливо, найцікавіша функція. Вона озвучує ваші описи голосом, який ви обрали в налаштуваннях (SAPI5 або OpenAI), змішує його з оригінальним звуком відео та автоматично знижує гучність фонового звуку під час описів, щоб створити готовий до прослуховування MP3-файл.
Детальний огляд розширених налаштувань
Вікно налаштувань (Ctrl + ,) дає вам детальний контроль над поведінкою Omni Describer.
Вкладка "Налаштування ШІ"
- Частота кадрів для аналізу ШІ: Визначає кількість кадрів на секунду, що надсилаються до ШІ. Нижче значення (напр., 5 FPS) може зменшити вартість API, але є ймовірність пропустити дуже швидкі дії.
- Надсилати відео без звуку до ШІ: Це корисна опція для запобігання тому, щоб звук з відео (діалоги, музика, ефекти) збивав з пантелику ШІ. Замість того, щоб намагатися описати вибух, який він чує, ШІ зосередиться лише на тому, що відбувається візуально.
- Вимкнути фільтри безпеки (використовувати з обережністю): Ця опція може дозволити ШІ обробляти контент і генерувати описи, які він зазвичай міг би позначити як чутливі. Однак це не є абсолютним скасуванням. Кінцевий результат все ще підпорядковується основним політикам безпеки Google, і немає гарантії, що всі фільтри будуть обійдені. Будь ласка, пам'ятайте, що ви несете відповідальність за те, як ви використовуєте цю функцію.
Вкладка "Виведення аудіо"
- Рушій синтезу мовлення (TTS):
- SAPI5 (вбудований у Windows): Використовує голоси, сумісні з SAPI5, що постачаються з Windows або встановлені вами. Не потребує додаткового ключа API. Якість звуку буде залежати від якості голосів, встановлених у вашій системі.
- OpenAI TTS (висока якість): Зазвичай створює більш природні та плавні голоси. Використання цієї опції вимагає ключа API OpenAI та способу оплати, пов'язаного з вашим обліковим записом.
Поради та хитрощі для найкращих результатів
Створення чудових аудіоописів — це мистецтво. Хоча ШІ є ефективним помічником у цьому мистецтві, ви отримаєте найкращі результати, якщо будете правильно його скеровувати.
Сила інструкцій: Ваші режисерські нотатки
Програма має набір основних правил, яких вона навчає ШІ (наприклад, не говорити поверх діалогів). Уявіть область Шаблон інструкції на головному екрані як місце, де ви залишаєте свої режисерські нотатки для конкретного відео. Хороша нотатка допомагає ШІ зосередитися на певному стилі чи деталі, тоді як розпливчаста може призвести до несподіваних результатів.
Коли (і як) використовувати інструкцію?
Здебільшого ШІ може давати чудові результати без спеціальної інструкції, покладаючись лише на свої основні правила. Я рекомендую використовувати цю функцію лише тоді, коли у вас є конкретна мета.
Порада №1: Інструкція "Зосередитись на іменах"
У відео з великою кількістю персонажів, де імена важливі, ШІ іноді може вагатися використовувати ім'я. Щоб пріоритезувати відстеження імен, ви можете створити власну інструкцію:
Для цього відео твоїм найвищим пріоритетом є ідентифікація та використання правильних імен персонажів, як тільки вони будуть вимовлені в діалозі. Це важливіше, ніж бути надто лаконічним. Зосереджуючись на цьому, намагайся дотримуватися всіх інших системних правил якомога краще.
Порада №2: Інструкція "Описати атмосферу"
У візуально насичених фільмах, де атмосфера є ключовою, ви можете скерувати ШІ зосередитися на оточенні:
Зосередься на описі обстановки, атмосфери та деталей оточення. Щоб створити багатий візуальний світ, згадай освітлення, кольори та загальний настрій сцени. Приділяй менше уваги незначним рухам персонажів, якщо вони не є критичними.
Чого слід уникати в інструкціях?
Для найкращих результатів важливо уникати інструкцій, які суперечать основним принципам роботи ШІ. Оскільки ШІ завжди намагається слідувати інструкціям, надання йому хибної вказівки може призвести до неправильного тлумачення відео.
- Приклад поганої інструкції:
"Розкажи мені все, що відбувається." Це може зробити ШІ надмірно нечутливим, змусивши його зосередитися на неважливих деталях, таких як "(персонаж говорить)", замість значущих дій.
- Приклад поганої інструкції:
"Скажи мені, що говорять персонажі." Це може змусити його порушити правило "описувати лише візуальне" і описувати діалоги, наприклад, "персонаж сказав взяти це."
Коротше кажучи: Використовуйте інструкції не для того, щоб змінювати фундаментальні правила хорошого аудіоопису, а щоб скерувати ШІ на конкретний фокус.
Часті запитання (FAQ)
П: Чи захищені мої ключі API?
В: Так. Ваші ключі зберігаються лише на вашому комп'ютері і ніколи нікому не передаються, окрім як для підключення до сервісів Google/OpenAI.
П: Чому генерація описів займає так багато часу?
В: Час залежить від тривалості вашого відео, швидкості вашого Інтернету (для завантаження відео до ШІ), обраної вами частоти кадрів та поточного навантаження на сервіси ШІ. Настійно рекомендується використовувати функцію "Увімкнути фрагментацію відео" для довгих відео.
П: Чому ШІ не описав те, що я бачив на екрані?
В: ШІ навчений віддавати перевагу тиші, аніж робити помилку або говорити поверх діалогу. Ви можете використовувати функцію "Запитати більше...", щоб дізнатися про конкретні моменти, або вибрати рівень деталізації "Детальний" у налаштуваннях.
Гарячі клавіші
- Ctrl + O: Відкрити локальне відео
- Ctrl + U: Відкрити з прямого URL
- Ctrl + Y: Відкрити з YouTube
- Ctrl + ,: Відкрити налаштування
- F1: Переглянути довідку
Щиро дякую за використання Omni Describer! Ця програма є відображенням мого бажання зробити візуальні медіа доступнішими та приємнішими для всіх. Те, що користувачі, як ви, використовують цей інструмент і надають зворотний зв'язок, є найбільшою мотивацією для мене продовжувати його розробку.
Зворотний зв'язок та підтримка
У вас є запитання, повідомлення про помилку або ідея для нової функції? Я був би радий почути від вас! Найкращий спосіб зв'язатися зі мною — електронною поштою. Ваш відгук є безцінним для того, щоб зробити Omni Describer ще кращим.