Дипломна Робота 2025

Дослідження: Керування Роботом
за Допомогою Жестів

Юрій Головко

ІПСА • КПІ ім. Ігоря Сікорського

Огляд Проблематики

Тема "Керування роботоплатформою з використанням жестів" є надзвичайно актуальною та цікавою для дипломної роботи з системного аналізу. Вона лежить на перетині комп'ютерного зору, робототехніки (HRI - Human-Robot Interaction) та машинного навчання.

Наявна апаратна база (Raspberry Pi 4, камера на сервоприводах) є ідеальною стартовою точкою. RPi 4 має достатньо потужності для запуску сучасних полегшених моделей розпізнавання, а рухома камера додає цікавий вимір до проекту (наприклад, керування не тільки платформою, але й "поглядом" робота).

🎯 Ключове Дослідницьке Питання

"Як розробити та імплементувати систему реального часу для керування колісною роботоплатформою на базі Raspberry Pi 4, використовуючи 2D-камеру для розпізнавання статичних та динамічних жестів, та яка архітектура (on-board vs. off-board) забезпечить найкращий баланс між точністю, затримкою та автономністю?"

Роботоплатформа з камерою на сервоприводах

Роботоплатформа на базі Raspberry Pi 4 з камерою на сервоприводах

21
3D-точки розпізнавання руки
30+ FPS
Обробка в реальному часі
4+
Типи розпізнаваних жестів
2D
Камера (RGB)

Технологічний Стек

Raspberry Pi 4 Python MediaPipe Hands OpenCV Computer Vision Machine Learning GPIO Control Servo Motors
👁️

Комп'ютерний Зір

Розпізнавання статичних та динамічних жестів руки за допомогою алгоритмів комп'ютерного зору та машинного навчання.

Реальний Час

Обробка відео потоку з мінімальною затримкою (< 100ms) для миттєвого відгуку на команди користувача.

🤖

Автономність

Повністю автономна система на базі Raspberry Pi 4 без необхідності підключення до зовнішніх обчислювальних ресурсів.

Актуальність Дослідження

Переваги жестового керування:

  • Природний та інтуїтивний інтерфейс взаємодії
  • Безконтактне керування (актуально після пандемії)
  • Працює на відстані без додаткових пристроїв
  • Може використовуватись у важких умовах

Області застосування:

  • Промислова робототехніка та автоматизація
  • Медичні та реабілітаційні системи
  • Сервісні роботи у громадських місцях
  • Розумний дім та IoT пристрої

1. Сенсори для Збору Даних

Вибір сенсора є першим кроком. Він визначає тип даних для аналізу та складність алгоритмів.

📷

2D Камера (RGB)

Обраний варіант

Стандартні веб-камери або камера RPi. Найдешевший та найдоступніший варіант.

Плюси:

  • Дешево та доступно
  • Величезна кількість бібліотек (OpenCV)
  • Сучасні моделі (MediaPipe) чудово працюють з 2D

Мінуси:

  • Чутливість до освітлення
  • Немає інформації про глибину (важко відрізнити "велику долоню далеко" від "маленької долоні зблизька")
  • Проблема оклюзії (перекриття)
🎥

3D Камера (Depth)

Можливе розширення

Приклади: Intel RealSense, Microsoft Kinect (старий), OAK-D.

Плюси:

  • Точна 3D-позиція руки/скелету
  • Стійкість до освітлення
  • Легко виміряти відстань/розмір

Мінуси:

  • Значно дорожче
  • Більший обсяг даних для обробки
  • Може мати проблеми з чорними/блискучими поверхнями
🤚

Носимі Сенсори

Можливе розширення

Рукавички з IMU (гіроскопи/акселерометри) або тензодатчиками. Приклад: Myo Armband (зараз не випускається, але ідея жива).

Плюси:

  • Найвища точність розпізнавання жестів
  • Немає проблем з освітленням/оклюзією
  • Можливий тактильний зворотний зв'язок

Мінуси:

  • Інвазивність (користувач має щось вдягати)
  • Складність калібрування
  • Ціна та доступність
💡

Примітка:

Проект зосереджено на 2D-камері. Це класична проблема, і сучасні інструменти дозволяють досягти вражаючих результатів, що ідеально демонструє можливості вбудованих систем.

2. Методи Розпізнавання Жестів

Це "мозок" системи. Тут 2D-зображення перетворюється на команду.

Статичні Жести

Жести, що розпізнаються за одним кадром. Поза не змінюється в часі.

Приклади:

  • "STOP" (відкрита долоня)
  • "GO" (кулак)
  • "TURN LEFT" (вказівний палець вліво)
  • "COUNT" (кількість піднятих пальців)

Технології:

  • Пошук контурів (OpenCV)
  • Метод опорних векторів (SVM)
  • Згорткові нейронні мережі (CNN)
👋

Динамічні Жести

Жести, що вимагають аналізу послідовності кадрів. Рух має значення.

Приклади:

  • "FOLLOW ME" (помах рукою до себе)
  • "INCREASE SPEED" (рух вгору)
  • "ROTATE" (обертальний рух)

Технології:

  • Рекурентні нейронні мережі (RNN, LSTM)
  • 3D CNN
  • Приховані Марковські Моделі (HMM)
🚀

Ключова Технологія: MediaPipe Hands

Це бібліотека від Google, яка змінює правила гри для цього проекту. Вона запускається на RPi 4.

  • З одного 2D-зображення вона повертає 21 3D-координату точок на долоні.
  • Вона не просто розпізнає "долоню", а будує її скелет.
  • Це спрощує задачу: замість аналізу "пікселів", аналізуються "координати суглобів".
  • З цим інструментом статичні жести (напр., "кулак") стають простою перевіркою відстаней між кінчиками пальців та долонею.
  • Динамічні жести стають аналізом траєкторії руху, наприклад, точки "зап'ястя".

Порівняння Складності та Можливостей Алгоритмів

3. Системна Архітектура

Як поєднати всі компоненти? RPi 4 є "серцем" системи, але де буде "мозок"?

Архітектура 1: On-Board (На Платформі)

Камера RPi
Raspberry Pi 4
  • Захоплення кадру (OpenCV)
  • Розпізнавання (MediaPipe)
  • Логіка команд (Python)
Контролер Моторів (GPIO)

Плюси:

  • Повна автономність
  • Мінімальна затримка (немає мережі)
  • Проста система (все в одному місці)

Мінуси:

  • Обмежена обчислювальна потужність RPi 4
  • Важко використовувати "важкі" моделі

Архітектура 2: Off-Board (Поза Платформою)

Камера RPi
Raspberry Pi 4
  • Трансляція відео (Wi-Fi)
  • Прийом команд (Wi-Fi)
  • Контролер Моторів (GPIO)
Зовнішній ПК
  • Прийом відео
  • Розпізнавання (MediaPipe / Важка модель)
  • Логіка команд (Python/ROS)
  • Відправка команд
🎯

Висновок:

Проект розпочнеться з архітектури 1 (On-Board), використовуючи MediaPipe. Вона є достатньо потужною для дипломної роботи та демонструє повний цикл системного аналізу на вбудованій системі.

4. Scope Проекту та Ідеї для Диплому

Конкретні ідеї для реалізації та планування роботи. Ресурси PLC Team (3D-друк) ідеально підходять для створення кастомних корпусів та кріплень.

Core (MVP) - Базовий функціонал

Цього достатньо для "заліку" дипломної роботи.

  • Система на RPi 4 (On-Board): Вся логіка працює на платі.
  • Розпізнавання на MediaPipe: Використання готової моделі для отримання скелету долоні.
  • Керування Рухом (Статичні Жести):
    • 🖐️ Відкрита долоня: STOP (повна зупинка).
    • Кулак: GO (рух вперед).
    • 👈 Палець вліво: Поворот вліво (поки жест активний).
    • 👉 Палець вправо: Поворот вправо.
  • Тестування та Аналіз Затримок: Виміряти час від показу жесту до реакції робота (ключовий показник для системного аналізу).

Advanced - Розширений функціонал

Це ідеї для "відмінної" роботи та демонстрації "вау-ефекту".

  • Пропорційне Керування ("Віртуальний Джойстик"):
    • Позиція долоні на екрані (X, Y) транслюється у швидкість та напрямок (V, ω).
    • Рука вгорі - швидше, рука внизу - повільніше.
  • Керування Камерою:
    • Жест "щипок" (pinch) активує режим керування камерою.
    • Рух долоні керує сервоприводами камери, дозволяючи "роздивитися" навколо.
  • Динамічний Жест "Follow Me":
    • Жест "помах до себе" ✋👋 змушує робота їхати в напрямку оператора.
  • Інтеграція з PLC Team:
    • Розробити та надрукувати на 3D-принтері ергономічне кріплення для камери та RPi.
    • Створити кастомний корпус для робота.
  • Порівняльний Аналіз: Реалізувати і On-Board, і Off-Board архітектури та порівняти їх продуктивність (затримка, точність, FPS) - це дуже сильна частина для системного аналізу.
💡

Примітка:

Проект розпочато з архітектури 1 (On-Board), використовуючи MediaPipe. Вона є достатньо потужною для ядра проекту та демонструє повний цикл системного аналізу на вбудованій системі. Архітектура 2 (Off-Board) розглядається для порівняльного аналізу продуктивності.