Может ли Google пройти тест с двумя кольцами ©?

8 мая 2018 года был анонсирован Google Duplex, который мгновенно приблизил Google Assistant еще на шаг к прохождению теста Тьюринга, по крайней мере, с точки зрения его разговорных способностей.

На следующий день, на Google I / O 2018, основная аудитория ахнула и приветствовала, когда Сундар Пичаи, генеральный директор Google, продемонстрировал пару очень похожих на человеческие телефонных разговоров между Duplex и людьми-получателями, которые, казалось, не подозревали, что разговаривают с машиной. .

Google Duplex - это новая технология для ведения естественного разговора для выполнения« реальных задач по телефону. Технология направлена на выполнение определенных задач, таких как планирование определенных типов встреч. Для таких задач система делает общение максимально естественным, позволяя людям разговаривать нормально, как если бы они разговаривали с другим человеком, без необходимости адаптироваться к машине ».

Около 68 лет назад Алан Тьюринг опубликовал книгу «Computing Machinery and Intelligence». В этой статье он представил концепцию того, что стало известно как тест Тьюринга. В текстовой беседе, если люди-оценщики не могут достоверно определить, разговаривают ли они с человеком или машиной, считается, что машина выдержала испытание.

Премия Лебнера представляет собой ежегодную платформу для практических тестов Тьюринга, первое соревнование проводится в ноябре 1991 года. На момент написания статьи Золотой (аудио и визуальный) и Серебряный (только текстовый) призы еще не были выиграны, хотя Бронзовый приз за систему, демонстрирующую «максимально человечное» разговорное поведение, уже неоднократно удостаивался награды.

Естественно звучащая разговорная способность Google Duplex, дополненная вербальными социальными сигналами и колебаниями, такими как «ммм» для эффекта, очень убедительна и впечатляет. Но до тех пор, пока он ориентирован на очень узкий диапазон разговоров - в настоящее время ограниченный телефонными звонками для бронирования столиков в ресторанах и посещений салонов, а также для проверки часов работы магазинов в праздничные дни - оценщик теста Тьюринга вскоре сможет обнаруживать синтетического вызывающего абонента. прекращение разговора вне трассы.

Однако по определенным параметрам теперь настолько трудно отличить Duplex от звонящего-человека, что некоторые снежинки, попадающие в заголовки газет в национальной прессе, сразу же назвали его «устрашающим», «жутким» и даже «неэтичным».

Повседневная человеческая беседа поддерживается нашим внутренним пониманием контекста нашего окружения, событий и общими знаниями, которые мы почти непрерывно приобретаем, причем большая часть из них прозрачна и без усилий. Например, утром 28 июня 2016 года, если английский футбольный фанат посетовал: «Вы видели это жалкое зрелище прошлой ночью?» Очень немногие соратники-болельщики с трудом могли бы понять, что в комментарии говорилось об унижении Англии у ног национальной сборной Исландии, которой в то время управлял на неполный рабочий день состоятельный дантист.

Машина (или человек) без контекстной осведомленности сможет понять слова, но не их значение - это, кстати, концепция творчества, исследуемая в эпизоде «Дармок» из сериала «Звездный путь: новое поколение».

Точно так же любитель тенниса поймет, что вопрос «Собираетесь ли вы на Уимблдон в этом году?» Скорее всего, это связано с посещением турнира Большого шлема, а не просто общим запросом о чьих-то планах поездки на юго-запад Лондона.

В сочетании с более общим механизмом общения с доступом ко всей сети знаний Google, легко увидеть, что Google Duplex претендует хотя бы на получение аудио части приза Loebner Gold в ближайшие несколько лет. Возможно, поэтому пришло время добавить еще один уровень для проверки понимания машиной реального разговорного контекста.

Могу я поэтому смиренно и с полным уважением к мистеру Тьюрингу постулировать с его усиленно надуманным названием Тест двух колец ©?

Подлежащий тестированию объект принимает роль домашнего робота-уборщика и представляет собой серию изображений повседневных предметов, которые произвольно извлекаются из большого пула. Для каждого изображения также указаны детали, которые робот сможет определить при физическом контакте, например вес и размер. Тестируемый объект должен распознать предметы на изображениях и на основе своих накопленных знаний определить, какие из изображенных предметов необходимо сохранить, какие следует поместить в холодильник, а какие, если таковые имеются, можно безопасно выбросить или положить в холодильник. мусорная корзина.

Изображенные предметы, например, могут быть: обручальное кольцо из 22-каратного золота с видимым клеймом, пластиковое кольцо золотого цвета из рождественского крекера, авиабилет на рейс в будущем, использованный билет на поезд, датированный вчерашним днем, квартал зрелого сыра, немного заплесневелого хлеба, закупоренную, пустую на три четверти бутылку вина виньо до порту и полную емкость молока через две недели после срока годности.

Игнорируя любые тайные сентиментальные ценности и т. Д., Большинство взрослых людей, которые жили в современном обществе в течение разумного периода времени, смогли бы пройти этот тест, почти не задумываясь, безопасно сохраняя важные предметы и собирая мусор; но машина…

Для машины или любого разумного существа, пытающегося принимать правильные решения без доступа к огромному количеству контекстных данных, которые люди принимают как должное, это снова будет «Шака, когда стены рухнут».

Это лишь вопрос времени, когда Google и другие компании сделают необходимые данные доступными для своего программного обеспечения для общения и наконец присуждут окончательную премию Лебнера.

Версия этой статьи напечатана в журнале Mensa Magazine - август 2018 года под заголовком «Время откровенно говорить».

Может ли Google пройти тест с двумя кольцами ©?

Вопросы по теме