Привет, хакеры, изображение лица пользователя снимают с помощью инфракрасной камеры, которая более устойчива к изменениям света и цвета окружающей среды. Используя глубокое обучение, смартфон способен распознать лицо пользователя в мельчайших деталях, тем самым «узнавая» владельца каждый раз, когда тот подхватывает свой телефон. Удивительно, но Apple заявила, что этот метод даже безопаснее, чем Touch ID: частота ошибок 1 к 1 млн.
В этой статье разобран принцип алгоритма, подобного Face ID, с использованием Keras. Также представлены некоторые окончательные наработки, созданные с помощью Kinect.
Понимание Face ID
Нейронные сети, на которых основана технология Face ID, не просто выполняют классификацию.
Первый шаг — анализ принципа работы Face ID на iPhone X.
Техническая документация может помочь нам в этом. С Touch ID пользователь должен был сначала зарегистрировать свои отпечатки, несколько раз нажав на датчик. После 10–15 различных касаний смартфон завершает регистрацию.
Аналогично с Face ID: пользователь должен зарегистрировать своё лицо. Процесс довольно прост: пользователь просто смотрит на телефон так, как делает это ежедневно, а затем медленно поворачивает голову по кругу, тем самым регистрируя лицо в разных позах.
На этом регистрация заканчивается, и телефон готов к разблокировке. Эта невероятно быстрая процедура регистрации может рассказать многое об основных алгоритмах обучения. Например, нейронные сети, на которых основана технология Face ID, не просто выполняют классификацию.
Выполнение классификации для нейронной сети означает умение предсказывать, является ли лицо, которое она «видит» сейчас, лицом пользователя. Таким образом, она должна использовать некоторые тренировочные данные для прогнозирования «истинного» или «ложного», но в отличие от многих других случаев применения глубокого обучения, здесь этот подход не будет работать.
Во-первых, сеть должна тренироваться с нуля, используя новые данные, полученные с лица пользователя. Это потребует много времени, энергии и множество данных разных лиц (не являющимися лицом пользователя), чтобы иметь отрицательные примеры.
Метод не позволит Apple тренировать более сложную сеть в офлайне, в лабораториях, а затем отправлять её уже обученной и готовой к использованию в своих телефонах.
Считается, что Face ID основан на сиамской свёрточной нейронной сети, которая обучается в офлайне, чтобы отображать лица в низкоразмерном скрытом пространстве, сформированном для максимизации различия между лицами разных людей, используя контрастную потерю. Вы получаете архитектуру, способную делать однократное обучение, как упоминалось в Keynote.
От лица к числам
Сиамская нейронная сеть в основном состоит из двух идентичных нейронных сетей, которые также разделяют все веса. Эта архитектура может научиться различать расстояния между конкретными данными, такими как изображения.
Идея состоит в передаче пары данных через сиамские сети (или просто передаёте данные в два разных шага через одну и ту же сеть), сеть отображает их в низкоразмерных характеристиках пространства, как n-мерный массив, а затем вы обучаете сеть, чтобы сделать такое сопоставление, что данные точек из разных классов были как можно дальше, в то время как данные точек из одного и того же класса находились как можно ближе.
В конечном итоге сеть научится извлекать наиболее значимые функции из данных и сжимать их в массив, создавая изображение. Чтобы понимать это, представьте, как бы вы описали породы собак с помощью небольшого вектора так, что похожие собаки имели бы почти схожие векторы.
Вероятно, один номер использовали для кодирования цвета собаки, другой — для обозначения размера собаки, третий — для длины шерсти и так далее. Таким образом, собаки, похожие друг на друга, будут иметь схожие векторы. Сиамская нейронная сеть делает это самостоятельно.
Используя эту технологию, необходимо большое количество лиц, чтобы обучить такую архитектуру распознавать наиболее схожие. Имея правильный бюджет и вычислительную мощность (как это делает Apple), можно также использовать более сложные примеры, чтобы сделать сеть устойчивой к таким случаям, как близнецы, маски и так далее.
Преимущество такого подхода? В присутствии модели plug and play, которая может распознавать различных пользователей без какой-либо дополнительной подготовки, а просто вычислять нахождение лица пользователя на скрытой карте лиц, образовавшейся после настройки Face ID.
Кроме того, Face ID способен адаптироваться к изменениям в вашей внешности: как к внезапным (например, очки, шапка, макияж), так и к «постепенным» (растущие волосы). Это делается путём добавления опорных векторов лица, вычисленных на основе вашего нового внешнего вида, на карту.
Реализация Face ID с помощью Keras
Что касается всех проектов машинного обучения, первое, что нам нужно, — данные. Создание собственного набора данных потребует времени и сотрудничества многих людей, поэтому с этим могут возникнуть сложности.
Существует веб-сайт с набором данных RGB-D лиц. Он состоит из серии RGB-D-фотографий людей, стоящих в разных позах и делающих разные выражения лица, как это произошло бы в случае использования iPhone X. Чтобы увидеть окончательную реализацию, вот ссылка https://github.com/n...alo/faceID_beta
Создаётся свёрточная сеть на основе архитектуры Squeeze Net. В качестве входных данных сеть принимает как RGBD-изображения пар лиц, так и четырёхканальные изображения, и выводит различия между двумя вложениями. Сеть обучается со значительной потерей, которая минимизирует различие между изображениями одного и того же человека и максимизирует различие между изображениями разных лиц.
После обучения сеть способна конвертировать лица в 128-мерные массивы, поэтому фотографии того же человека группируются вместе. Это означает, что для разблокировки устройства нейронная сеть просто вычисляет различие между снимком, который требуется во время разблокировки, с изображениями, сохранившимися на этапе регистрации. Если различие подходит под определённое значение, устройство разблокируется.
Используется алгоритм t-SNE. Каждый цвет соответствует какому-либо человеку: можете заметить, сеть научилась группировать данные фотографии довольно плотно. Интересный график также возникает при использовании алгоритма PCA для уменьшения размерности данных.
В данной статье рассказано о реализации проверочной концепции механики разблокировки Face ID, основанную на встраивании граней и сиамских свёрточных сетях. Я надеюсь, что информация была для вас полезной. Весь код - https://github.com/n...alo/faceID_beta