Как сделать роботов по-настоящему близкими человеку? Научить их распознавать объекты в пространстве и следовать человеческим командам?
Этими вопросами занимается пермский ученый Николай Ильиных. Он родился в селе Коса Коми-Пермяцкого округа, учился в пермском классическом университете на специальности «Теоретическая и прикладная лингвистика», а сегодня работает в университете Гетеборга в Швеции и учит роботов общаться с человеком. В будущем такие роботы смогут помогать людям с проблемами зрения, пожилым и работать ассистентами в обычной жизни.
Николай Ильиных рассказал ТЕКСТу, чем отличается обучение робота и человека, смогут ли роботы полноценно общаться с людьми и хотел бы он работать у Илона Маска.
Что роботы уже умеют делать и чему бы хотелось их научить
Я занимаюсь обработкой естественного языка (NLP, natural language processing) – это поле, которое за последние 2-3 года уже увидело парочку революционных методов, изменивших наше понимание того, какими должны быть автоматизированные системы, способные общаться с человеком.
Моя цель — сделать роботов по-настоящему близкими к человеку: искусственный интеллект не должен только передвигаться вокруг, уметь описывать то, что он видит и так далее. Он должен уметь вести диалог с человеком о том, что вокруг них обоих.
Человеческое общение – это не только язык. Это жесты, мимика, наши специфические и индивидуальные особенности, наше окружение, наши знания – все эти детали определяют то, как мы общаемся и что мы скажем в следующий момент.
На данный момент в компьютерной лингвистике все приложения, так или иначе, направлены на решение определенных и конкретных задач – до единой системы, способной «разрешить проблему человеческого языка и его моделирования» еще очень далеко. Сейчас системы обработки языка могут реагировать на запросы человека в очень простых условиях, которые обычно созданы искусственно. Реальный мир намного более комплексный и распознавание изображений – это только первый шаг на пути к его пониманию.
На данный момент я работаю над моделями, способными описывать пространство вокруг нас, генерируя небольшой текст, состоящий из нескольких предложений. Это может звучать как достаточно простая задача, но она очень отличается от другой, более простой задачи – задачи описания изображения одним предложением.
Если Вы находитесь в игровом парке и видите вокруг себя американские горки, лавочку с попкорном, различные аттракционы, то будет неестественно описать все это одним предложением, не так ли? Да даже текстом описать сложно, так как Вам нужно понять, какие объекты стоит описывать, так как они важны и несут особую значимость для этого парка, а какие не стоит описывать и можно упустить. Вы, скорее всего, опишите американские горки, но не будете описывать цвет неба, например. От чего это зависит? Вот выполнению такого рода задач многие и пытаются обучить роботов на данный момент.
Цель всей компьютерной лингвистики, как и моя цель, – сделать эти системы более естественными, приблизить их к тому уровню простоты, с которым люди анализируют мир вокруг себя.
Может ли робот научиться всему, что умеет человек
А если так подумать, человек еще очень многого не умеет. Мы еще не знаем пределов того, на что мы способны, что, в свою очередь, ограничивает создаваемых нами роботов. Такие системы – это как дети, их нужно обучать с нуля и следить, чтобы они не совершали одни и те же ошибки из раза в раз, чтобы они обучались на этих ошибках.
К примеру, одной из самых сложных задач для роботов может быть прохождение так называемого теста Тьюринга – теста, который проверяет, насколько естественно робот выполняет определенное действие согласно внешнему наблюдателю-человеку. Если человек с уверенностью сообщит, что действие было выполнено человеком, а по факту это был робот, то считается, что тест пройден успешно и машина достигла человеческого уровня способностей.
Конечно, это достаточно наивная точка зрения и этот тест используется в литературе в качестве абстрактной отсылки к классическим теориям об искусственном интеллекте.
На сегодняшний день роботы еще очень далеки от уровня, с которым человек выполняет любые действия. Со временем они научатся общаться с нами, смогут быть нашими помощниками и будут очень хорошо выполнять многие физические задачи в реальном мире. Им будет труднее научиться мыслить творчески и неординарно – для этого требуется развить свою собственную индивидуальность. На данный момент я не думаю, что это возможно, так как все системы созданы по нашему подобию и используют определенный набор данных для обучения.
Не могу с уверенностью сказать, что в будущем роботы будут способны создавать уникальные поэмы, которые отражают их личность и их собственные размышления, а не те данные известных поэтов, на основе которых они были обучены. Но кто знает, ведь человечество еще совсем не достигло пределов своего развития. Может, мы способны создать машины, которые смогут вести с нами самый настоящий человеческий диалог?
Кто быстрее обучается: робот или человек
Единственное, в чем роботы лучше людей, это в скорости обучения. Машины способны анализировать любые данные буквально в течение секунд, в то время как у нас на это могут уходить годы. К примеру, буквально недавно DeepMind (ответвление Google) разработали машинный алгоритм AlphaFold2, который решил проблему биологов, над которой они бились практически 50 лет (!). Теперь это считается уже революцией в науке и многие компании понимают, что за такими технологиями будущее.
Во всем остальном люди, конечно же, на высоте. Мы способны не только обучаться, но и интегрировать эти знания в определенный контекст, использовать их для решения новых задач, связывать эти знания с тем, о чем мы уже в курсе. Для роботов же все преподносится на тарелочке: вот тебе данные, которые мы аккуратно для тебя подобрали, вот тебе алгоритм, который мы очень внимательно писали, а теперь, пожалуйста, обучись решать похожие задачи. Иными словами, для робота создаются все условия для обучения, в то время как люди обучаются иначе: мы находимся в открытом мире и у нас есть выбор и очень много неконкретной информации, которую нужно проанализировать и исследовать.
Я думаю, что люди – это самые нерациональные существа. Машины намного логичнее. Мы же слишком обременены различными проблемами, ограничениями, контекстом наших собственных жизней и всегда найдем более креативный выход из ситуации. Наверное, разница между роботом и человеком в том, что мы способны мыслить творчески и поглощать знания даже в таких ситуациях, где, казалось, обучаться невозможно. Робот же сразу «заплюхается», обучать его будет сложнее, чем маленького ребенка.
Робот, способный анализировать мир вокруг себя
Наша исследовательская группа базируется в университете Гетеборга, в Швеции. Мое исследование довольно узкое: разработка системы, способной анализировать визуальный мир вокруг и реагировать на инструкции от человека в этом мире. Для этого мы планируем использовать роботов вроде Фурхата (Furhat), разработанных специально для взаимодействия с людьми.
Некоторые мои коллеги работали с искусственно созданной рукой, реагирующей на аудио команды и передвигающей определенные предметы, похожие друг на друга. Такие системы могут широко применяться для помощи людям с проблемами зрения, с иными физическими проблемами. К примеру, если пожилому дедушке тяжело достать определенны предмет с полки, робот может отреагировать на его команду и инструкции. А если что-то пошло не так, то робот должен отреагировать на коррекции и новые инструкции от человека, понимая, что он случайно взял не тот предмет, который требовалось.
У нас нет цели реализовать эти вещи в качестве полноценного коммерческого проекта, но, в конце концов, каждая из наших небольших систем, которые мы разрабатываем, публикуя статью за статьей, может быть выпущена как отдельное лингвистическое приложение.
О работе у Илона Маска
Напрямую с такими компаниями, <которые занимаются созданием роботов>, я не работал, но бывал на конференциях, слушал презентации их работников, приобрел связи в некоторых крупных гигантах индустрии. Google и Amazon достаточно много ресурсов вкладывают в исследования по компьютерной лингвистике по созданию именно таких агентов и систем, над которыми я работаю. Я уже проходил интервью на позицию в Google и прошел до самого конца (два тура с 6-7 интервью), но в итоге выбрал науку. После окончания докторантуры я бы с радостью ушел работать в такую крупную компанию.
В будущем хочу работать в команде из программистов и лингвистов, чтобы между нами было очень много коммуникации и каждый день я бы узнавал что-то новое из моего поля или из компьютерных наук.
Хотел бы я поработать у Илона Маска? Это, конечно, провокационный вопрос! На самом деле, один из тех, кто начал всю эту тему про генерацию текстов для изображений и видео, Андрей Карпаты, сейчас является директором по искусственному интеллекту в Tesla и работает над автопилотом и проблемами компьютерного зрения. Поэтому, кто знает, может быть и эта область меня привлечет. Ну а задача всегда одна – создавать системы для помощи людям. Другой задачи и быть не может.
Алина Комалутдинова, интернет-газета ТЕКСТ