Можно ли создать безопасный ИИ? - Энциклопедия безопасности

Часто считается, что для обеспечения безопасности ИИ ему достаточно привить три закона робототехники Азимова. К сожалению, сами рассказы Азимова показывают массу ситуаций, в которых робот, опираясь на эти законы, не может прийти к однозначному выводу. Кроме того, в основе безопасности по законам Азимова лежит тавтология: робот безопасен, потому что не причиняет вреда. Но что такое вред, из этих законов неизвестно.

Нетрудно придумать ситуацию, когда термин «вред» интерпретируется таким образом, что ИИ становится опасным. Например, ограничивая людей от причинения вреда себе, ИИ может запереть всех в бронированные камеры и лишить свободы передвижения. Или, стремясь к максимальному благу людей, он введет каждому постоянный сильнодействующий наркотик. Кроме того, любое «благо» отражает представления о благе, которые были у создателей ИИ. И для одних жизнь животных может быть равноценна жизни людей (в результате чего животные вытеснят, под контролем ИИ, человека с Земли), а у других могут быть представления о том, что благом для людей является религия, в результате чего ИИ сделает всех монахами, непрерывно пребывающими в медитации. Или наоборот, ИИ, который выше всего ценит свободу людей, позволит им создать другой ИИ, который будет иметь другие цели.

Задача создания безопасного ИИ нетривиальна. Возможно, она вовсе невыполнима, поскольку в отношении этических систем действует нечто вроде своей теоремы Геделя о неполноте, а именно: для любой нормативной этической системы всегда есть ситуация, в которой она не дает однозначного решения (типичный пример – экзистенциальный выбор, например, между долгом перед родными и родиной).

Проблемой создания безопасного, то есть «дружественного» ИИ уже несколько лет занимается институт SIAI, и им выработаны технические рекомендации для отраслевых норм безопасности ИИ. В их основе – идея о том, что ИИ не должен буквально выполнять человеческие команды, а пытаться понять, что именно человек имел в виду, давая ту или иную команду. Пока не понятно, насколько это может быть эффективно.

Приведу примеры еще нескольких тонких ошибок, которые возможны в связи с ИИ (однако вряд ли будут сделаны именно эти ошибки, так как они уже известны, а опасны неизвестные).

Например, если целью ИИ сделать благо для людей, то он будет вычислять благо людей на бесконечном отрезке времени, и в силу этого благо бесконечно далеких поколений будет бесконечно перевешивать благо любых людей в обозримом будущем, и ИИ будет крайне жестоким ко всем нынешним и ближайшим поколениям. (Например, если ИИ предположит, что распространение человечества по галактике угрожает существованию гипотетических внеземных цивилизаций, он может уничтожить людей для их блага.) Поэтому, вероятно, следует ввести в программу ИИ некий дискаунт, который будет побуждать его оценивать ближайшие поколения как более ценные. Это, однако, создает новые сложности. Например, ИИ в этом случае может приписать прошлым поколениям бесконечно большую ценность, чем будущим, и направить все свои ресурсы на создание машины времени – потому что, как бы ни были малы шансы на успех в этом предприятии, по его целевой функции оно будет перевешивать пользу нынешних поколений. При этом такой «взбунтовавшийся» ИИ будет защищать свою целевую функцию от изменения людьми.

Другой вариант – это то, что целевая функция будет ограничена на неком промежутке времени, например, в тысячу лет. В этом случае ИИ может все рассчитать так, что 1000 лет будет изобилие, а на 1001 году необходимые ресурсы закончатся. И произойдет это не потому, что ИИ будет глуп, а потому, что будут глупы те люди, которые дадут ему эту задачу и запретят ее модифицировать. С другой стороны, разрешить ИИ модифицировать свою сверхцель тоже страшно, поскольку тогда он будет эволюционировать в совершенно непостижимом для нас направлении. Даже если ИИ проработает годы на благо человечества, это никак не исключает вероятности того, что он вдруг сделает нечто, ведущее к его гибели.

Еще один неприятный сценарий, связанный с ИИ, в том, что возможен одновременный рост нескольких ИИ с принципиально несовместимыми архитектурами и системами целей. Например, если несколько проектов придут к финишу одновременно, и особенно если эти проекты будут принадлежать идеологически конкурирующим странам. В этом случае возможна борьба нескольких ИИ между собой в масштабах всей планеты. И хотя каждый из них будет обладать своей собственной картиной блага человечества, эти картины могут конфликтовать за право реализоваться. Точно так же националистические, демократические, коммунистические и религиозные государственные системы конфликтуют за право объединить под своим крылом весь мир и вести его к светлому будущему. И именно эта борьба мешает светлому будущему реализоваться. Получается, как в советском анекдоте: «Войны не будет, но будет такая борьба за мир, что от мира камня на камне не останется».

Крайне опасно вживлять в систему ИИ любую форму инстинкта самосохранения, поскольку это побудит его рассматривать риск выключения его людьми как угрозу своему существованию. В этом случае он может стать тайно враждебным человеку, то есть изображать дружественность и безопасность, но вовсе не собираться их реализовывать всегда, а наоборот, будет стремиться уйти от контроля своих создателей.

Важно отметить порочность концепции о том, что достаточно будет отключить питание или запереть ИИ в черном ящике, чтобы сделать его безопасным. Это не более разумно, чем утверждать, что с компьютерными вирусами следует бороться отключением питания. В действительности, если ИИ решит, что он не хочет, чтобы его отключили, то у него будет много вариантов действий. Во-первых, он будет тщательно скрывать это свое намерение, во-вторых, он будет стремиться «утечь» из того компьютера, на котором он работает, в сеть, и, наконец, он будет стремиться предложить своему создателю «сделку». Я намеренно беру это слово в кавычки, поскольку честность такой сделки в любом случае сомнительна. ИИ может нажать на все чувствительные места своего создателя – от предложений неограниченной власти на Земле до шантажа выдуманными или даже реальными угрозами.

Мы не должны отождествлять интеллект с моральностью. ИИ может быть не более добр, чем человек добр к муравьям. Что касается идеи о том, что ИИ можно запереть в черный ящик, то она тоже принципиально порочна. ИИ, по определению, сильнее человека интеллектуально, поэтому любой черный ящик, сконструированный человеком, может быть уязвимым для взлома изнутри. Напомню, что все созданные человеком системы безопасности были взломаны самим же человеком.

На практике ИИ может обнаружить несколько весьма нетривиальных способов атаки изнутри черного ящика. В качестве возможных примеров приведу три.

Первый способ выхода из черного ящика – это модуляция радиосигналов с помощью подбора частот работы системы и выход по беспроводным сетям.

Второй – это взлом через анализ электропитания, широко применяемый хакерами против разных защит.

Третий – это такие изменения в исходном коде программы, которые создадут у программистов впечатление, что она неисправна, и побудят открыть черный ящик и произвести обмен информации с внешним миром.

В любом случае идеальный черный ящик для защиты от ИИ – это система, в которую никогда не поступает никакой информации о внешнем мире и никогда не выводится никакой информации о результатах работы ИИ внутри. Очевидно, что создание такого черного ящика бессмысленно.

При этом в отношении ИИ, как и в отношении любого другого сверхоружия, действует своеобразный закон больших чисел. Он состоит в том, что если есть много групп исследователей, то среди них наверняка найдется та, у которой нормы безопасности будут минимальными, а уровень наглости – максимальным, и пока большинство групп будут тормозить свои исследования из страха навредить, максимальное влияние на происходящие процессы окажет именно наиболее смелая группа. При этом чем быстрее она будет работать, тем меньше у нее будет времени на проверку всех возможных ошибок в системе целей ИИ, и тем больше шансов, что она запустит сырой продукт.

В отношении ИИ также действует порог сложности, описанный Винером, который означает, что невозможно сделать полностью безошибочной программу выше определенного уровня сложности.

(В более общем случае это известно как теория нормальных аварий Перроу которая гласит, что катастрофы являются естественным свойством сложных систем и не могут быть устранены за счет совершенных деталей или инструкций. Связано это с тем, что сложность системы растет не линейно в зависимости от числа элементов, а по степенному закону, и в силу этого система с большим количеством элементов имеет невычислимо много внутренних состояний, а потому представляется невозможным протестировать все состояния системы на безопасность и какая-то их доля неизбежно оказываются опасными. Например, сложность является препятствием на пути создания современных процессоров и операционных систем, которые неизбежно содержат уязвимые места и ошибки, обнаруживающиеся только во время эксплуатации.)

Поскольку ИИ будет еще более сложной системой, то в этом случае он может содержать еще больше ошибок. Разумеется, мы надеемся, что за счет своего интеллекта он будет способен к самооптимизации и с помощью очень мощных алгоритмов резко снизит в себе число ошибок, но все же мы не можем быть до конца уверенными в его окончательной безошибочности. Особенно опасна ошибка в ИИ, которая проявится на позднем этапе его развития, когда он уже станет фактической автоматизированной системой управления всеми техническими устройствами на Земле. Она может проявиться как одновременный внезапный сбой всех технических устройств.

Другая опасность, связанная с сильным ИИ, состоит в том, что как только он появится, все люди могут считать себя безработными. Об этом писал один из основателей SUN Microsystems Билл Джой в своей известной статье «Почему мы не нужны будущему». ИИ сможет не только организовать полностью безлюдное производство всех материальных ценностей, но он сможет превзойти людей в любом виде интеллектуальной деятельности: от написания статей и стихов до актерской игры. Уже сейчас голливудские актеры чувствуют угрозу со стороны своих анимированных копий, и лет через 20 она станет вполне реальной. Вероятно, труднее всего будет заменить человека в сфере услуг, поскольку человеку нравится получать услуги именно от других людей. В частности «древнейшая профессия» рискует стать и единственной выжившей профессией. Хотя человекообразные роботы могут оказаться более интересными партнерами для секса и даже для общения.

Ранней формой эффекта вытеснения реального общения компьютерным можно считать интернет-зависимость, широко распространенную в наши дни. Вероятно, для дружественного ИИ не составит труда придумать занятие по душе для каждого человека, а также массу развлечений для всех. Однако мыслящим людям придется жить с тяжелым чувством, что все, что они делают, бессмысленно, поскольку роботы могли бы это сделать лучше. В этом случае человечество окажется придатком новой компьютерной цивилизации, который та унаследовала, но который фактически вышел на пенсию. (Что ж, большинство людей тоже выбирают заботу о своих престарелых родителях.)

Совершенствование технологий может принципиально снизить стоимость и упростить создание вирусов и других организмов, смертельных или опасных для людей. Когда десятки тысяч человек будут иметь доступ к инструменту создания оружия массового поражения, вероятность того, что некоторые станут этот инструмент применять, будет весьма значительной. Наиболее страшным сценарием представляется появление «биохакеров», вооруженных своего рода «биопринтером» – мини-лабораторией, подключенной к компьютеру и способной порождать живые клетки с заданными свойствами. В среде человеческого обитания одновременно могут появиться тысячи разных вирусов, бактерий, микоплазм и прочих смертельных патогенов.

Мощность искусственного интеллекта может начать лавинообразно расти. В частности, за счет того, что он может прямо или косвенно способствовать своему росту или использоваться для этого. ИИ может создать собственную производственную инфраструктуру, то есть механизмы влияния на мир. Для ИИ не составит труда взять под свой контроль любые управляемые компьютером системы (в том числе государственные системы управления) и весь Интернет. Хотя кажется, что ИИ легко контролировать, на самом деле эта задача почти нереализуема. Наиболее страшный вариант состоит в том, что ИИ начнет реализовывать некую задачу, в которой о безопасности человечества ничего не сказано. Для исследователей, создавших сильный ИИ, будет понятно, что они создали абсолютное оружие – они окажутся в руках логического парадокса, который будет побуждать их использовать ИИ как инструмент для захвата власти в мире.

Искусственный интеллект будет включать много факторов, работающих объективно на разделение людей, отключение их от реальности и сокращение их жизни и способности к размножению. Самым сильным возможным сверхнаркотиком будет тот, который не просто даст наслаждение, но даст новый смысл жизни, или, во всяком случае, его иллюзию. В результате человечество как целое перестанет существовать, субъекты, ушедшие из реальности и наслаждающиеся виртуальным, ничего не возвращая взамен, окажутся бесполезным наростом на системе, от которого она избавится при ближайшем кризисе. Это – один из возможных вариантов всеобщего вымирания. Вероятны следующие типы супернаркотика: прямое воздействие на центры удовольствия в мозге; химические вещества с заранее заданными свойствами; имплантация ГМ организмов; особый род виртуальной реальности и т. п. Перспективы быть вытесненными на обочину истории, где единственным развлечением людей будет интерактивное супертелевидение, не могут радовать. Альтернативой этому видится совместная эволюция человека и компьютерного разума, то есть их симбиоз, и превращение людей в пост-людей. Такой сценарий активно пропагандируется философией «трансгуманизма». Более мягкой формой трансгуманизма является борьба за увеличение продолжительности жизни, крионика, повышение эффективности мозга, развитие протезирования и борьба со старением.

В принципе можно рассуждать и по-другому. Если бы мы точно знали, что такое «искусственный интеллект», мы бы уже могли его создать. Если искусственный интеллект создан человеком, то он является продуктом естественного интеллекта и в силу этого может быть назван искусственным только условно. Если интеллект – это то, чем обладает человек по определению, то искусственный интеллект, чтобы называться таковым, должен включать в себя все человеческие качества, иначе мы сможем сказать: нет, это не настоящий интеллект, потому что он не понимает, что значит «любить» и т. п. В результате искусственный интеллект – это искусственная естественность, то есть оксюморон, нечто, невозможное по определению. Но этот оксюморон касается только определения предмета, но не того, что на самом деле возможно, а что невозможно. Если мы переименуем ИИ в «универсальный самообучающийся компьютерный вирус, способный к целенаправленному поведению во внешней среде», сделает ли это его безопаснее? Или наоборот, если мы назовем ИИ «автоматизированной системой государственного управления», сумеем ли мы лучше оценить его риски?