Новый искусственный интеллект научился видеть, как человеческий мозг

Группа исследователей из Института фундаментальных наук (Южная Корея), Университета Ёнсе и Института Макса Планка (Германия) разработали технологию искусственного интеллекта (ИИ), которая делает машинное зрение ближе к человеческому. Метод, названный Lp-Convolution, повышает точность распознавания изображений, снижает вычислительные затраты и имитирует работу мозга.
Человеческий мозг легко выделяет важные детали в сложных сценах, например, замечая знакомое лицо в толпе. Традиционные системы ИИ, такие как сверточные нейронные сети (CNN), используют фиксированные квадратные фильтры (например, 3×3 пикселя), чтобы анализировать изображения. Это эффективно, но ограничивает способность улавливать сложные или удаленные детали. Другие модели, Vision Transformers, обрабатывают целые изображения, но требуют огромных вычислительных ресурсов.
Lp-Convolution решает эти проблемы, вдохновляясь зрительной корой мозга. Новый метод позволяет фильтрам CNN менять форму — растягиваться горизонтально или вертикально в зависимости от задачи, подобно тому, как мозг фокусируется на ключевых деталях. Это делает ИИ точнее и менее энергозатратным.
«Мы, люди, быстро замечаем, что важно в людной сцене, — сказал доктор С. Джастин Ли, директор Центра познания и социальности IBS. — Наша Lp-Convolution имитирует эту способность, позволяя ИИ гибко фокусироваться на самых важных частях изображения — так же, как это делает мозг».
Как работает система?

В зрительной коре нашего мозга нейроны соединяются не случайно, а по определённому принципу: они образуют плавные, «мягкие» связи с другими нейронами вокруг себя. Чем дальше нейрон находится от центра, тем слабее эта связь — это похоже на колоколообразную кривую, которую называют гауссовым распределением. Такая структура помогает мозгу не только сосредотачиваться на центральной части изображения, но и учитывать всё, что происходит по краям.
Вместо жестких квадратных фильтров Lp-Convolution использует многомерное p-обобщенное нормальное распределение (MPND), чтобы создавать гибкие фильтры, напоминающие гауссову кривую, как в нейронных связях мозга. Это позволяет ИИ выделять важные детали и игнорировать лишнее, обрабатывая изображения эффективнее. Например, если нужно распознать машину на дороге, фильтр может «растянуться», чтобы лучше уловить ее форму.
Тесты на наборах данных CIFAR-100 и TinyImageNet показали, что Lp-Convolution улучшает точность классических моделей (AlexNet) и современных (RepLKNet). Метод также устойчив к поврежденным данным, что критично для реальных приложений, таких как диагностика по медицинским снимкам. Ученые сравнили паттерны обработки ИИ с нейронной активностью мозга мышей и нашли поразительное сходство.
Новая технология преодолевает проблему «большого ядра» в CNN, где увеличение фильтров не улучшает результат, но усложняет вычисления. Новый метод делает CNN мощнее и экономичнее, предлагая альтернативу ресурсоемким системам
Это открытие важно для:
- машин с автономным вождением: ИИ быстрее распознает препятствия.
- медицинской визуализации: мочнее выявляет аномалии на снимках.
- робототехники: делает зрение роботов адаптивнее, четче и быстрее
«Эта работа — весомый вклад как в ИИ, так и в нейронауку, — отметил доктор Ли. — Более тесно связав ИИ с мозгом, мы раскрыли новый потенциал для CNN».
Сходство с мозгом мышей подтверждает, что ИИ становится ближе к биологическим системам. Команда планирует применить технологию к сложным задачам, например, решению головоломок или обработке видео в реальном времени. Также комманда ученых опубликовали код и предобученные модели в открытом доступе на Github.