Разработан фильтр против прослушивания речи умными колонками

Он подключается после микрофона и не пропустит ничего лишнего.
Pressmaster/Shutterstock/FOTODOM

Звук — это неисчерпаемый источник информации. Обучая алгоритмы распознавать уникальные звуковые сигнатуры, можно определить, чем занимается человек: готовит, пылесосит или моет посуду. Это полезно в некоторых случаях, но вызывает справедливые опасения в отношении конфиденциальности, поскольку микрофоны могут передавать личные данные.

В Университете Карнеги-Меллона (CMU) разработали встроенный фильтр Kirigami, который обнаруживает и удаляет фрагменты человеческой речи, собранные аудиодатчиками, до того, как они будут использованы для распознавания активности.

«Данные, содержащиеся в звуке, могут быть полезны для таких приложений, как распознавание действий, мониторинг здоровья и даже экологический анализ. Однако эти же данные могут нарушить приватность людей. Kirigami можно установить на различные датчики с микрофонами, чтобы фильтровать речь до отправки данных с устройства, защищая конфиденциальность пользователей», — пояснил аспирант Судершан Буварагаван с факультета компьютерных наук CMU.

Многие существующие методы защиты аудиоприватности предполагают изменение или преобразование данных — например, исключение определенных частот из спектра звука или обучение алгоритмов игнорировать человеческую речь. Эти способы достаточно эффективны, чтобы сделать разговоры непонятными для людей, но появление генеративного ИИ усложнило ситуацию — нейросети научились восстанавливать разговоры из фрагментов записей, ранее считавшихся не подлежавшими расшифровке.

«С учетом огромных объемов данных, которыми оперируют эти модели, хватает сохраняющейся после обработки остаточной информации — небольших фрагментов, которые могут помочь частичному восстановлению речи. Kirigami лишает эти модели доступа к таким фрагментам», — отметил доцент Юврадж Агарвал с факультета компьютерных наук CMU.

Современные устройства вроде умных колонок ставят функциональность выше приватности, благодаря чему могут, по сути, подслушивать все, что говорят люди. Конечно, можно поступить радикально — просто отключить микрофоны, но это лишит пользователей преимуществ мощного сенсорного инструмента. Компромиссное решение было представлено на 30-й ежегодной международной конференции по мобильным вычислениям и сетям ACM MobiCom'24.

Идея состоит в том, чтобы сделать легкий фильтр, способный работать даже на самых маленьких и доступных микроконтроллерах для идентификации и удаления речи, чтобы конфиденциальные данные даже не выходили за пределы гаджета — это называется обработка на краю (edge processing).

Фильтр действует как простой бинарный классификатор, определяющий, есть ли в аудио устная речь. Он разработан на базе эмпирического анализа утечек в моделях автоматического распознавания речи на основе глубокого обучения.

Интенсивность удаления речи можно регулировать. Если увеличить порог, фильтр удаляет больше речи, но может затронуть и полезные фоновые звуки. При низком пороге он пропускает больше звуков окружающей среды, что улучшает работу приложений, но повышает риск утечки речевых данных.

«Kirigami вырезает большую часть речи, но оставляет окружающие звуки, важные для распознавания активности, — пояснил аспирант Хаочжэ Чжоу. — Его можно комбинировать с другими методами для дополнительной защиты».

Потенциал новинки куда шире, чем защита владельцев умных колонок, склонных к паранойе, добавил доцент Маянк Гоэль. Автоматическая аудиоаналитика может:

  • напоминать людям с деменцией о повседневных делах,
  • отслеживать поведенческие аномалии у детей с СДВГ,
  • выявлять признаки депрессии у студентов.

«Это лишь примеры из нашей лаборатории. Подобные сценарии можно найти по всему миру, где требуется ненавязчивый сбор данных о повседневной жизни», — заметил Гоэль.

С дальнейшим проникновением в нашу жизнь интернета вещей и умных домов Kirigami найдет все больше применений — разработчики уверяют, что фильтр очень просто адаптировать под свои потребности в конфиденциальности.