В скором времени глухонемые и слабослышащие пользователи сотовых сетей США смогут общаться по мобильному телефону не только с помощью SMS, но и жестами. Чтобы предложить подобную услугу, учёным пришлось немало потрудиться. Ведь передать видео по сети просто, но как сделать так, чтобы поток данных вписался в низкую пропускную способность беспроводных сетей?
Подобные системы уже действуют в Японии и Швеции. Теперь же команда исследователей из университета Вашингтона (University of Washington — UW) получила грант от Национального научного фонда (National Science Foundation — NSF) на реализацию в следующем году проекта, который в прямом и переносном смысле соединит 20 человек.
Ранее люди с ограниченными возможностями могли обмениваться только текстовыми сообщениями, но, как отметила профессор Ив Рискин (Eve Riskin), ведущая проект, «все люди хотят общаться на родном для них языке, для граждан США это американский язык жестов (American Sign Language — ASL)».
Вверху: Анна Кавендер выучила язык жестов после того, как вошла в состав группы разработчиков. Внизу: так выглядит общение по разные сторон соединения (фото и иллюстрация University of Washington).
Долгое время учёные разрабатывали программное обеспечение, которое позволило бы преодолеть существующие ограничения. Прежде всего это низкая пропускная способность сотовых сетей и слабая производительность самих мобильных телефонов (в основном качество и количество снимаемых в секунду кадров).
Этой весной удалось впервые наладить связь между несколькими аппаратами разработчиков. И этот эксперимент стал по сути первой в США двусторонней видеосвязью в реальном времени, организованной с помощью обычных мобильников.
После того как видео, рассказывающее о новых возможностях для глухонемых, выложили на YouTube (обратите внимание на субтитры), отклики и вопросы от граждан страны стали приходить чуть ли не каждый день, пишут в пресс-релизе университета учёные.
Несомненно, передавать информацию с помощью видео получается куда быстрее, а эмоции лучше, считает Джессика Девитт (Jessica DeWitt), студентка UW. Сама она не слышит звуки окружающей реальности и потому активно участвует в развитии проекта MobileASL.
Нужные области видеоизображения выделяются с помощью алгоритмом определения кожи (фото University of Washington).
Учёные сравнили возможности пользователей сотовых сетей Европы, Азии и США (видимо, имеются в виду отнюдь не все страны) и выяснили, что американцы «медленнее» почти в десять раз.
Но разработчикам пришлось решать не только эту проблему. Даже имея в запасе высокоскоростные сети, не все люди могут позволить себе дорогие (более «сообразительные») мобильники, которые могли бы установить надёжную видеосвязь.
С помощью векторов движения определяются макроблоки, а затем и значимые области видеоизображения (иллюстрации University of Washington).
«Широкополосная сеть доступна пока ещё далеко не везде, — говорит аспирантка Анна Кавендер (Anna Cavender), — но и там, где такая сеть имеется, она стоит больших денег. А мы считаем, что это несправедливо, когда люди, имеющие проблемы со слухом, должны платить за сотовую связь больше».
Что скрывается за этими громкими словами? То, что программистам пришлось изрядно попотеть, чтобы создать программное обеспечение, способное снизить количество обрабатываемой информации и сжать поток передаваемых данных.
Команда разработчиков попыталась воссоздать видеоизображение «говорящего» человека, которое, с одной стороны, было бы хорошо различимым, с другой, – имело не слишком высокое разрешение.
К компромиссу пришли, когда поняли, что главное – передать чёткое изображение лица и рук «говорящего». Учёные вспомнили, что проведённые ранее исследования показали: во время общения с помощью языка жестов люди большую часть времени смотрят друг другу в лицо.
Нынешний вариант MobileASL использует стандартные технологии сжатия видеосигнала, чтобы не выходить за допустимые пределы передачи данных. Но будущие версии программного обеспечения будут работать на своих собственных алгоритмах, которые позволят ещё больше улучшить качество картинки. Так, компьютерщики создали программы, показывающие лицо и руки «говорящего» в высоком разрешении, а всю остальную картинку — в низком.
Здесь для сравнения показано изображения лица «говорящего» в разных разрешениях (фото University of Washington).
В данный момент идёт разработка ПО, способного самостоятельно определять, когда человек жестикулирует, а когда «слушает» собеседника. Такая функция позволит снизить энергопотребление телефона во время разговора.
Более подробно о технологии MobileASL можно почитать в её презентации (PPT-документ, 9,57 мегабайта), а также в этой статье (PDF-документ, 430 килобайт).
Кстати, последние свои достижения разработчики представят в Амстердаме на Международной конференции автоматических систем распознавания лица и жестов (8th IEEE International Conference on Automatic Face and Gesture Recognition).
Скорость смены кадров подбирается в зависимости от того, «говорит» пользователь или «слушает». Слева направо: поначалу количество кадров в секунду довольно большое, затем оно снижается и снова увеличивается до приемлемых величин (иллюстрация University of Washington).
Пока команда исследователей использует сотовые телефоны европейских производителей, так как среди них проще найти совместимые с новым программным обеспечением и оборудованные видеокамерой и дисплеем на одной стороне аппарата. Это важно, поскольку позволяет снимать себя и в то же время видеть на экране собеседника.
После того как специалисты полностью реализуют задумку на практике (а это произойдёт не раньше начала будущего года), им придётся договариваться с ведущими производителями мобильных телефонов, чтобы те внедрили MobileASL в свои аппараты, ведь только тогда сервис станет действительно широкодоступным.
Но, как заявляют разработчики, некоторые компании уже заинтересовались проектом. Так что общение по сотовому, по крайней мере для глухонемых американцев, вероятно, не заставит себя долго ждать.
Читайте также: Новости России и мира.