Компьютерное зрение и распознавание изображений являются неотъемлемой частью искусственного интеллекта (ИИ), который за прошедшие годы обрел огромную популярность. В январе этого года состоялась выставка CES 2017, где можно было посмотреть на последние достижения в этой сфере. Вот несколько интересных примеров использования компьютерного зрения, которые можно было увидеть на выставке.
1. Беспилотные автомобили
Самые крупные стенды с компьютерным зрением принадлежат автомобильной промышленности. В конце концов, технологии беспилотных и полуавтономных автомобилей работают, во многом, благодаря компьютерному зрению.
Продукты компании NVIDIA, которая уже сделала большие шаги в области глубинного обучения, используются во многих беспилотных автомобилях. Например, суперкомпьютер NVIDIA Drive PX 2 уже служит базовой платформой для беспилотников Tesla, Volvo, Audi, BMW и Mercedes-Benz.
Технология искусственного восприятия DriveNet от NVIDIA представляет собой самообучаемое компьютерное зрение, работающее на основе нейронных сетей. С ее помощью лидары, радары, камеры и ультразвуковые датчики способны распознавать окружение, дорожную разметку, транспорт и многое другое.
NVIDIA и Audi планируют в 2020 году выпустить на трассу первую полностью автономную машину, которая будет использовать новый суперкомпьютер Xavier AI.
NVIDIA также представила искусственный интеллект Co Pilot, который способен распознавать лица, движения губ, направление взгляда и язык — из-за чего водить автомобиль станет удобнее. Так, например, благодаря распознаванию движения губ компьютер будет лучше понимать произносимые слова, а способность улавливать направление взгляда (анализ глаз, лица и положения головы) поможет не только определить, не заснул ли водитель, но и спасет в трудных ситуациях, когда человек не замечает опасность — например, приближающегося сзади по центру дороги мотоциклиста. Что касается считывания движения губ, то сейчас сети, использующие глубинное обучение, способны распознавать речь с точностью до 95%, в то время как человек распознает ее с точностью в 3%. Сейчас эта невероятная способность используется для улучшения распознавания речи в автомобиле, а именно в шумных ситуациях.
2. Персонализация
В будущем благодаря технологии распознавания лиц индивидуальные настройки автомобиля станут значительно лучше.
Так, в концепт-каре Chrysler Portal есть специальные камеры, расположенные за рулем. С помощью компьютерного зрения автомобиль может мгновенно определять личность водителя еще до того, как тот сядет в машину, и загружать его любимые музыкальные композиции, настроить кресло в нужное положение, отрегулировать температуру и так далее. Машина умеет распознавать не только водителя, но и пассажиров, и точно так же автоматически регулировать сиденья и температуру и даже раскрывать шумоподавляющие «коконы», в которых можно послушать любимую музыку. Такие способности не только понравятся владельцам автомобилей, но и смогут сильно повлиять на райдшеринговые сервисы вроде Uber и Lyft.
3. Интерфейсы
Технологии отслеживания движения глаз с помощью компьютерного зрения используется не только в игровых ноутбуках, но и в обычных, и корпоративных компьютерах, для того чтобы ими могли управлять люди, которые не могут воспользоваться руками. Tobii Dynavox PCEye Mini представляет собой устройство размером с шариковую ручку, которое станет идеальным и незаметным аксессуаром для планшетов и ноутбуков. Также эта технология отслеживания движения глаз используется в новых игровых и обычных ноутбуках Asus и смартфонах Huawei.
Тем временем продолжает развиваться жестовое управление (технология компьютерного зрения, которое может распознавать особые движения руками). Теперь оно будет использоваться в будущих автомобилях BMW и Volkswagen.
Новый интерфейс HoloActive Touch позволяет пользователям управлять виртуальными 3D-экранами и нажимать кнопки в пространстве. Можно сказать, что он представляет собой простую версию самого настоящего голографического интерфейса Железного человека (он даже точно так же реагирует легкой вибрацией на нажатие элементов). Благодаря таким технологиям, как ManoMotion, можно будет легко добавить жестовое управление практически в любое устройство. Причем для получения контроля над виртуальным 3D-объектом с помощью жестов ManoMotion использует обычную 2D-камеру, так что вам не понадобится никакое дополнительное оборудование.
Устройство eyeSight’s Singlecue Gen 2 использует компьютерное зрение (распознавание жестов, анализ лица, определение действий) и позволяет управлять с помощью жестов телевизором, «умной» системой освещения и холодильниками.
Краудфандинговый проект Hayo, пожалуй, является самым интересным новым интерфейсом. Эта технология позволяет создавать виртуальные средства управления по всему дому — просто подняв или опустив руку, вы можете увеличить или уменьшить громкость музыки, или же включить свет на кухне, взмахнув рукой над столешницей. Все это работает благодаря цилиндрическому устройству, использующему компьютерное зрение, а также встроенную камеру и датчики 3D, инфракрасного излучения и движения.
4. Бытовые приборы
Дорогие камеры, которые показывают, что находится внутри вашего холодильника, уже не кажутся такими революционными. Но что вы скажете о приложении, которое анализирует изображение со встроенной в холодильник камеры и сообщает, когда у вас заканчиваются определенные продукты?
Элегантное устройство FridgeCam от Smarter крепится к стенке холодильника и может определять, когда истекает срок годности, сообщать, что именно находится в холодильнике, и даже рекомендовать рецепты блюд из выбранных продуктов. Устройство продается по неожиданно доступной цене — всего за $100.
5. Цифровые вывески
Компьютерное зрение может изменить то, как выглядят баннеры и реклама в магазинах, музеях, стадионах и развлекательных парках.
На стенде Panasonic была представлена демоверсия технологии проецирования изображения на флаги. С помощью инфракрасных маркеров, невидимых для человеческого глаза, и стабилизации видео, эта технология может проецировать рекламу на висящие баннеры и даже на флаги, развевающиеся на ветру. Причем изображение будет выглядеть так, будто бы оно действительно на них напечатано.
6. Смартфоны и дополненная реальность
Многие говорили об игре Pokemon Go как о первом массовом приложении с элементами дополненной реальности (AR). Однако как и другие приложения, пытающиеся запрыгнуть на AR-поезд, эта игра больше использовала GPS и триангуляцию, чтобы у пользователей возникло ощущение, что объект находится прямо перед ними. Обычно в смартфонах практически не используются настоящие технологии компьютерного зрения.
Однако в ноябре Lenovo выпустила Phab2 — первый смартфон с поддержкой технологии Google Tango. Эта технология представляет собой комбинацию датчиков и ПО с компьютерным зрением, которая может распознавать изображения, видео и окружающий мир в реальном времени с помощью линзы фотокамеры.
На выставке CES Asus впервые представила ZenPhone AR — смартфон с поддержкой Tango и Daydream VR от Google. Смартфон не только может отслеживать движения, анализировать окружение и точно определять положение, но и использует процессор Qualcomm Snapdragon 821, который позволяет распределять загрузку данных компьютерного зрения. Все это помогает применять настоящие технологии дополненной реальности, которые на самом деле анализируют обстановку через камеру смартфона.
Позже в этом году выйдет Changhong H2 — первый смартфон со встроенным молекулярным сканером. Он собирает свет, который отражается от объекта и разбивается на спектр, и затем анализирует его химический состав. Благодаря программному обеспечению, использующему компьютерное зрение, полученная информация может использоваться для разных целей — от выписки лекарств и подсчета калорий до определения состояния кожи и расчета уровня упитанности.
7. Камеры
В основном компьютерное зрение используется в камерах — так появляются все более умные камеры с новыми способностями, превышающими человеческие возможности.
Компания FLiR Systems выпустила несколько камер с датчиками тепла. Устройства FLIR Duo и Duo R внешне напоминают GoPro или другую экшн-камеру. Их можно прикрепить к любому дрону и отслеживать тепло в различных деловых и бытовых ситуациях — например, можно обнаружить утечку в изоляции крыши или вести воздушную топографическую съемку полей и нефтяных месторождений.
8. Роботы
Даже Alexa от Amazon, Google Home и прочие цифровые помощники и роботы, доступные на рынке, вроде LG Hub и Kuri от Mayfield Robotics, обладают базовыми навыками компьютерного зрения и могут определить, кто с ними разговаривает, или же выгнать собаку с дивана.
А если серьезно, то компания ITRI разработала систему Intelligent Vision System, которая использует глубинное обучение и компьютерное зрение, чтобы роботы могли различать объекты разного размера (фигурки, чашки) и определять их положение. Распознав объект, робот сможет взять его и принести в нужное место. Такие навыки отлично бы пригодились для обслуживания столиков в ресторане или для игры в шахматы.