Разрушая иллюзию ИИ, управляемого данными

Наблюдайте за данными в самых передовых приложениях, и их мощность рассеивается, открывая свежий взгляд на то, как конкурировать.

По словам Сэма Харриса, я исчезает. Я, ощущение себя предметом, исчезает, когда вы концентрируетесь на нем. Это резкое эмпирическое утверждение, оскорбление очевидности, что что-то столь же изначальное, как самость, может испариться при внимательном рассмотрении.

Данные для искусственного интеллекта так же, как "я" для сознания. Алгоритмы и архитектуры, как и сознание, кажутся непостижимыми. Но данные просто , взаимозаменяемый ресурс, такой как нефть, электричество или деньги. Для многих данные - это Я в ИИ, источник знаний и интеллекта, то, что заставляет все работать.

«То, что не выдерживает проверки, не может быть реальным». Сэм Харрис

Возможно, нам стоит просто принять иллюзию. На вопрос: «Почему относительно редкое - и сознательно культивируемое - переживание отсутствия« я »должно превзойти это почти постоянное чувство« я »?» Харрис предлагает: «Потому что то, что не выдерживает критики, не может быть реальным». Мы стараемся не видеть иллюзий, потому что реальность имеет значение. Ясное представление о реальности придает силы.

Истинная природа данных

Для Харриса «я» «это то, что значит думать, не зная, что вы думаете». Аналогично с данными. Наблюдения - это то, что похоже на наблюдение. Мы ошибочно наделяем данные и наблюдения атрибутами знания, в то время как разум, производящий наблюдения, работает в безвестности.

«Мир не говорит нам, что важно. Вместо этого он отвечает на вопросы ». Теппо Фелин

Когда данные говорят с нами или удивляют нас, это происходит только на фоне наших ожиданий, наших объяснений. В своем превосходном эссе об ошибке очевидности Теппо Фелин делает этот аргумент ярким. Он вспоминает известный психологический эксперимент, в котором участникам не удавалось увидеть гориллу посреди себя. Но они не видят гориллу, среди многих других аспектов, потому что они слишком заняты подсчетом, сколько раз игроки пасуют мяч.

Фелин проводит нас через галерею убедительных наблюдений, обобщающих свидетельства Чарльза Дарвина, Альберта Эйнштейна, Артура Конан Дойля, Карла Поппера и многих других. Фелин резюмирует: «Мир не говорит нам, что важно. Вместо этого он отвечает на вопросы. Когда мы смотрим и наблюдаем, мы обычно ориентируемся на что-то, чтобы ответить на конкретные вопросы или удовлетворить некоторые любопытства или проблемы ».

И все же это определяющее качество данных, основанных на теории, часто игнорируется. Фелин заключает: «Современные ортодоксальные взгляды на ИИ игнорируют основанную на вопросах и теории природу наблюдения и восприятия».

Почему иллюзия сохраняется

Конечно, как и в случае с самим собой, иллюзия данных сохраняется, потому что они полезны. Эта безвкусная характеристика позволяет легко говорить о данных, что является естественной фигурой в искусственном интеллекте. Он одинаково приветствует технологов, менеджеров и политиков. Он масштабируется от коктейльных вечеринок до политических движений. Данные, как и информация, должны быть бесплатными!

Он сохраняется, потому что оптимистичен по своей природе. Если знания возникают из данных, как вода из ледникового источника, нам просто нужно использовать их и позволить новому знанию течь. Больше данных, больше знаний. Большая часть преувеличений в искусственном интеллекте основана на этой иллюзии.

Трудно отказаться от чего-то столь интуитивного, столь грандиозного по своим обещаниям. Но иллюзии накладывают долг, тормозят прогресс. Они вводят законодателей в заблуждение, придерживаясь единой политики в отношении взаимозаменяемых данных. Они обманывают организации, заставляя их бездействовать, веря, что данные приносят непреодолимые конкурентные преимущества. И что самое серьезное, они отвлекают технологов от процессов наблюдения и исправления ошибок, которые приводят к вдохновенным решениям.

Здесь я хочу сосредоточиться на данных. Я хочу отказаться от идеи, что данные - это взаимозаменяемый ресурс. Хочу наблюдать данные в сервисе конкретных приложений. Хотя бы на мгновение, я хочу, чтобы эта популярная иллюзия данных исчезла, как горилла среди нас. В процессе я надеюсь выяснить, в чем на самом деле заключаются конкурентные преимущества.

Наблюдение за данными в дикой природе

Приведенные ниже примеры взяты из медицины. По большей части оптимизм в отношении ИИ в медицине вызван новыми данными. Неструктурированные данные похоронены в медицинских записях. Обнаруженная количественная оценка биологических систем в данных омики. Новые алгоритмы, которые извлекают данные изображений из старых технологий. Интеграция различных источников данных о населении и окружающей среде, таких как питание, факторы образа жизни и демографические данные. Если смотреть на это издалека, этот огромный ландшафт данных захватывает дух.

Но увеличьте масштаб, и вы обнаружите, что эти источники новых данных скрывают секрет. Существующие знания обеспечивают необходимый контекст наблюдения , который делает данные полезными. И это сильно мутит воду.

Несколько примеров иллюстрируют эти непредвиденные обстоятельства.

Синтез изображения

Начнем с особенно яркого примера новых данных в области медицинской визуализации. Медицинская визуализация позволяет выявлять аномальные снимки, которые по определению встречаются редко. Чтобы решить эту проблему нехватки данных, исследователи используют синтез изображений, генеративные модели для создания искусственных медицинских изображений (см. Видео ниже). По словам Ху-Чанг Шина из NVIDIA и его коллег: «Отражая общую тенденцию сообщества машинного обучения, использование GAN [генеративных состязательных сетей] в медицинской визуализации резко возросло за последний год. ”

Для создания этих синтетических данных традиционных методов увеличения данных с помощью манипуляции с изображениями недостаточно. Новые методы используют базовые медицинские знания, такие как нейронная анатомия головного мозга и ожидаемые характеристики опухолей. Объяснения служат важным катализатором новых наблюдений.

Предвзятость в медицинских записях

Медицинские карты - еще одна часто цитируемая весна новых данных, которые только и ждут, чтобы их зафиксировали. Денис Аньель из Гарварда и его коллеги разубечают нас в этой идее. Они описывают присущие им предвзятости в электронных медицинских картах (ЭУЗ). Данные EHR, без учета контекста, могут легко привести к систематическим ошибкам или бессмысленным выводам, что делает их непригодными для решения многих исследовательских вопросов.

Авторы утверждают, что только путем явного моделирования процессов, которые делают данные настолько сложными, можно почерпнуть новые идеи. Медицинские знания, такие как патофизиология пациента и переменные процесса здравоохранения, обеспечивают существенный контекст. Без руководящего воздействия объяснений данные вводят в заблуждение.

Оценка полигенного риска

Даже такие, казалось бы, объективные источники, как генетические данные, глубоко связаны с более широким медицинским комплексом. В журнале Nature Мэтью Уоррен недавно сделал обзор оценки полигенного риска, назвав его одним из самых многообещающих и противоречивых достижений в области предсказательной медицины. Полигенные оценки складывают небольшие - иногда бесконечно малые - вклады от десятков до миллионов пятен в геноме, чтобы создать одни из самых мощных генетических диагностических средств на сегодняшний день.

Обеспокоенность алгоритмической предвзятостью широко распространена. Но более актуальным для нашего обсуждения является глубокая зависимость от существующих медицинских знаний. «Без понимания биологических различий, представленных оценкой, или экологических и социальных факторов, которые должны взаимодействовать с этими различиями, невозможно знать, как вмешаться». Объяснения преграждают путь к эффективному вмешательству.

Менделирующая рандомизация

Другим особенно ярким примером мышления, основанного на данных, является менделевская рандомизация (см. Видео ниже), где генетика используется для имитации клинических испытаний. Как сообщает Гэри Таубс, исследователи используют естественные генетические различия для проведения виртуальных экспериментов в медицине, социальных науках, психологии и экономике. Например, варианты генов, которые повышают уровень хорошего холестерина ЛПВП в кровотоке человека, могут использоваться в качестве основы для сравнения частоты сердечных приступов в разных популяциях. Поскольку виртуальные эксперименты можно проводить без сбора каких-либо новых данных, результатом является взрыв исследований.

В то время как всплески новых исследований, таких как всплески данных, повсеместно выражаются оптимистично, пионеры менделевской рандомизации «теперь, похоже, так же обеспокоены тем, как эта техника будет использована неправильно, так и воодушевлены ее перспективами». Хотя менделевская рандомизация может пролить свет на влияние генов на всю жизнь, она не может определить, окажет ли лечение, связанное с этой информацией, положительное влияние на пациентов в настоящее время. Чтобы быть полезными, данные должны быть помещены в гораздо более широкие пояснительные рамки.

Просматривая эти примеры, вы, несомненно, будете поражены разнообразием и объемом данных. Но что его одушевляет, что дает ему жизнь? Данные собираются на основе ожиданий того, что необходимо, а что игнорируется. Данные генерируются на основе объяснений того, как устроен мир. Данные интерпретируются и применяются в здании вспомогательных знаний.

Сила данных рассеивается в свете объяснений. ИИ значительно увеличивает нашу наблюдательную способность, так же как телескопы расширяют наш взгляд на космос. Но объяснения диктуют, куда должен указывать телескоп, а объяснения имеют смысл того, что мы находим.

Последний бой данных

В конечном итоге мы отступаем к последней позиции данных: Данные должны быть хорошими. Без объяснений данные представляют собой оболочку. И поэтому мы постоянно добавляем новые квалификаторы, чтобы поддержать иллюзию. Данные заключаются в объеме, разнообразии, скорости, изменчивости, достоверности и так далее. Мы делаем это, потому что взаимозаменяемые данные не имеют смысла. Мы делаем это, потому что взаимозаменяемые данные - это вызов реальности.

Меган Бек и Барри Либерт описывают неприятное осознание, связанное с мышлением, основанным на данных. «Компании, стремящиеся одновременно определять и внедрять машинное обучение, к своему удивлению обнаруживают, что реализация алгоритмов, используемых для повышения интеллекта машин в отношении набора данных или проблемы, является легкой частью».

Так в чем же ценность? В хороших данных. Но что не становится товаром, так это данные. Вместо этого данные становятся «ключевым фактором в гонке машинного обучения. Это потому, что хорошие данные - редкость ». В мире постоянно появляются данные, но хорошие данные - это редкость.

Бек и Либерт добавляют это критическое замечание: организации невнимательны к объяснениям. «Шаг, который упускают из виду многие организации, - это создание гипотезы о том, что имеет значение». Они скучают по горилле среди них, потому что слишком заняты счетом баскетбольных мячей.

Новая перспектива

Когда мы переходим к объяснениям, становится ясно, почему хорошие данные - это редкость. Хорошие данные встречаются редко, потому что редко встречаются хорошие объяснения. Объяснения - это редкость, которая заставляет все это идти.

Данные бесполезны без интеллектуального процесса наблюдения, процесс начинается до создания ИИ и продолжается еще долго после того, как работа ИИ завершена. Этот поток знаний зависит от людей, которые вносят все творческие элементы, которые больше всего связаны с интеллектом. Это реальный источник постоянного конкурентного преимущества. И в отличие от данных, творчество - ресурс, который сложно монополизировать.

Когда иллюзия данных разрушается, перспективы меняются, а возможности обостряются. В отличие от нефти, данные больше не кажутся дефицитным ресурсом. Мир производит его в огромном количестве. Даже старые данные, которые постоянно собираются для понимания, оказываются возобновляемым ресурсом. Он обновлен свежими взглядами и новыми объяснениями.

Эти вещи, как и сознание, далеки от понимания. Мы действительно понятия не имеем, как создаются предположительные знания. Это творческий блок, который стоит между нами и общим искусственным интеллектом. Но замена иллюзий, таких как идея о том, что знания основаны на данных, не приближает нас.

Сосредоточиться на природе объяснений было бы возможно.

Из Объяснимого стартапа, посвященного науке и философии решения проблем.

Агниель, Д., Кохан, И., Вебер, Г. (2018). Предубеждения в данных электронных медицинских карт из-за процессов в системе здравоохранения: ретроспективное обсервационное исследование. BMJ. Https://doi.org/10.1136/bmj.k1479

Бек М. и Либерт Б. (2018). Гонка за машинным обучением - это на самом деле гонка за данными. Обзор управления MIT Sloan. Https://sloanreview.mit.edu/article/the-machine-learning-race-is-really-a-data-race/

Фелин. Т. (2018). Заблуждение очевидности. Эон. Https://aeon.co/essays/are-humans-really-blind-to-the-gorilla-on-the-basketball-court

Shin, HC et al. (2018). Синтез медицинских изображений для увеличения и анонимности данных с использованием генеративных состязательных сетей. Https://arxiv.org/abs/1807.10225

Таубес, Г. (2018). Исследователи находят способ имитировать клинические испытания с использованием генетики. MIT Technology Review. Https://www.technologyreview.com/s/611713/researchers-find-way-to-mimic-clinical-trials-using-genetics/

Уоррен, Мэтью. (2018). Подход к предсказательной медицине, который штурмом берет исследования в области геномики. Природа. Https://doi.org/10.1038/d41586-018-06956-3