F-Score: фундаментальный ИИ-инвестор или золото дураков?

Несомненно, сейчас в искусственном интеллекте идет невероятная золотая лихорадка! Инвесторы, руководители корпораций, предприниматели и лаборатории по всему миру спешат заработать на обещаниях ИИ «нового электричества». Но везде, где есть золотая лихорадка, неизбежно будут продавцы дурацкого золота и змеиного масла, пытающиеся заработать на менее информированных.

Одна из основных проблем для инвесторов в области ИИ, будь то инвестирование в компанию ИИ или во внутренний проект, основанный на ИИ, заключается в том, что продукты и решения ИИ по своей сути являются вероятностными. Почти всегда будет некоторая степень неопределенности - ИИ скажет вам, что уверен в чем-то на 65%, 78% или 99,9%, но почти никогда не скажет, что уверен на 100%.

В некоторых случаях вы можете применить ИИ к чему-то, что уже является вероятностным процессом - например, к автоматизации маркетинга, где разница между 26% и 29% на вершине воронки не может кардинально изменить чью-то жизнь. В других случаях - таких как хирургия или управление запасами - порог неопределенности чрезвычайно низок; Другими словами, если точность системы даже на 1% ниже, чем «идеальная», кто-то потеряет работу или, что еще хуже, жизнь.

Итак, когда мы оцениваем продукты ИИ, компании и их руководителей, это становится очень ценным соображением:

Как узнать, действительно ли продукт ИИ работает?

Один из распространенных показателей - это F-Score. Это мера точности, основанная на точности и запоминании. Когда вы слышите о точности системы ИИ, обычно исследователи или инженеры говорят о точности с точки зрения ее F-балла, чтобы сказать, что она «точна» на 50%, 76% или 99,9% при выполнении своей работы.

F-оценка - очень удобный инструмент при правильном использовании, но с этим связана большая проблема: F-оценка невероятно подвержена предвзятости!

В результате F-оценками можно легко манипулировать, чтобы продукты ИИ выглядели лучше, чем они есть на самом деле. Я даже встречал Рана с некоторыми неэтичными руководителями, которые будут использовать F-оценку в качестве метрики, чтобы удерживать поток денег инвесторов на стратегии разработки продуктов искусственного интеллекта из змеиного масла, которые, возможно, являются актами мошенничества, похожими на злополучный кровавый стартап Theranos.

Итак, как нам отличить фундаментального инвестора от золота дураков? Продолжайте читать, чтобы найти несколько идей, которые нужно иметь в виду…

Быстрый пример для иллюстрации определений точности, отзыва и F-Score

(Это очень коротко, но вы можете пропустить этот раздел, если вам важна только чистая прибыль)

В коробке 10 картинок, из них 4 вашей любимой собаки. У вас есть робот, которого вы попросили разобрать коробку и найти все фотографии вашей любимой собаки.

Робот вытаскивает 5 картинок. 3 вашей любимой собаки, две кошки вашего соседа.

Точность - это количество найденных релевантных изображений, поэтому в этом случае точность робота составляет 3 правильных изображения собаки из 5 выбранных изображений, или 60%. У нас было 2 ложных и 3 истинных положительных результата, но мы пропустили одно из реальных изображений собаки, поэтому у нас также был ложноотрицательный результат. Ложноотрицательный результат не рассматривается в цифре «Точность».

Чтобы получить более полную картину при рассмотрении этого ложноотрицательного результата, нам необходимо вспомнить. Напомним - это количество выбранных релевантных изображений. В этом случае отзыв робота - это 3 правильных изображения собаки, выбранных из 4 правильных изображений собаки, или 75%.

F-Score - это «среднее гармоническое значение» точности и запоминания. Я избавлю вас от математических уравнений и просто скажу, что рейтинг точности F-Score этого робота составляет 66,7%. Не только между Точностью и Напоминанием, гармоническое среднее является наиболее консервативным из доступных математических средств, из которых мы можем выбирать.

Для этой задачи точность 66,7% очень низкая - немного лучше, чем случайный шанс. Тем не менее, невероятное количество продуктов из змеиного масла с таким уровнем точности ежедневно используется для принятия очень важных бизнес-решений (например, детекторы лжи).

5 соображений смещения

Выбор набора данных

Это базовый. Чтобы убедиться, что вы действительно действительно испытываете силу движка ИИ, вам необходимо использовать данные, которые имеют подтвержденную достоверную информацию из надежного источника, который никогда не был частью обучающих данных для движка.

Если набор тестовых данных был частью набора данных для обучения, результаты прогнозирования будут выглядеть значительно лучше, чем они есть на самом деле. Думайте об этом, как об обмане в школьном тесте, изучив лист с ответами накануне вечером.

Это должно быть достаточно очевидно даже для наименее технического инвестора, но на это все же стоит обратить внимание, поскольку даже кандидаты наук нередко могут немного обмануть здесь.

Субъективность истинной истины

В приведенном выше примере наш робот искал изображения собак. Движок ИИ должен был изучить все особенности, которые делают собаку собакой - 4 лапы с лапами, висячие уши, хвост, мех и т. Д. И часто довольно легко определить, что такое собака, особенно если другие классы в группе очень разные, например изображения классических собак, выглядящих как собаки, смешаны с изображениями автомобилей, зданий, деревьев и т. д.

Но что делать, если другие классы очень похожи на собак, так что даже человеку очень трудно отличить их? Что, если собаки, похожие на собак, смешаны с собаками, которые больше похожи на кошек, вместе с изображениями кошек, и если есть фотографии не похожих на собак собак, таких как волки, лисы и подобные животные?

Аннотаторы (учителя ИИ) могут запутаться в данных и ошибиться, неправильно классифицируя базовый набор данных. Теперь набор достоверных данных - это на самом деле не наземная правда, а тренировка на основе чьего-то мнения.

Один из способов исправить это - сделать сам набор данных немного более разнообразным, чтобы он не сбивал людей с толку. Однако, если вы не можете этого сделать, вы все равно тренируете машину на основе субъективной интерпретации человека ...

Смещение аннотатора

Жизнь в целом очень субъективна, и для людей естественно смотреть на вещи по-другому. В приведенном выше случае мы видим, что эта субъективность может проявиться в наших основных данных и, таким образом, вызвать путаницу в процессе обучения.

Мы могли бы уменьшить эту субъективность, очистив базовые правдивые данные, чтобы аннотаторам было проще интерпретировать происходящее, но жизнь не всегда так снисходительна, чтобы позволить нам роскошь чистого базового набора правдивых данных. И, на самом деле, наша цель может состоять в том, чтобы закодировать часть этой естественной человеческой субъективности в модели.

Часто исследователи говорят о достижении паритета с людьми, поэтому, возможно, ничего страшного, если машина совершает те же ошибки, что и человек.

Это должно вызвать вопрос: кто ваши аннотаторы?

Они такие же, как люди, которые будут потреблять предсказания?

У них одинаковые культурные предубеждения?

Могу ли я попросить кого-нибудь в Пакистане, кто никогда не сталкивался с чем-то исключительно американским, обозначить уникальные американские культурные элементы?

Культурные предубеждения и различия между вашими аннотаторами и вашей целевой аудиторией для движка ИИ будут важны в случаях, когда истина является субъективной. Здесь желательно встроить процесс аннотации в продукт, чтобы продукт «учился» у потребителей своей собственной продукции.

Контекстное смещение

Как потребители прогнозов движка ИИ, мы часто хотим знать, какие элементы способствовали более точному прогнозу. Вот пример компании, которую я основал ранее: мы хотели спрогнозировать, насколько вероятно, что сделка будет закрыта после телефонного звонка, поэтому мы создали предиктор, который объединяет тысячи крошечных элементов звонка - все, от подсознательного выбора слов до тона разговора. голос, относительное время разговора, вы называете это - и результат был предсказанием вроде «78% вероятность, что этот звонок приведет к закрытой сделке».

Одним из вариантов использования продукта было обучение членов отдела продаж реальным, обучаемым элементам их выполнения вызовов, которые они могут легко понять и начать использовать. Это означало, что нам нужно было иметь прогнозы в временном ряду звонка. Например. через 1 минуту 26 секунд после начала разговора клиент сказал «рассердился».

В самом деле, это может быть полезно, чтобы найти интересную часть звонка и начать инструктаж по тому, как разрешить гнев клиента. Однако способ создания этой возможности заслуживает предвзятого рассмотрения.

Один из способов создать такую возможность - разделить вызов на небольшие сегменты, скажем, по 10 секунд каждый, и поместить их в конвейер, чтобы аннотаторы могли их прослушивать и маркировать. Аннотаторы входят в свою систему аннотаций и начинают слушать небольшие 10-секундные фрагменты аудио и маркируют лист вопросов с несколькими вариантами ответов.

Несмотря на то, что это эффективная обучающая система, она проблематична из-за отсутствия контекста для аннотатора. Без контекста первых полутора минут разговора для человека может быть невозможно узнать, было ли «черт возьми» в 10-секундном сегменте действительно частью счастливого предложения или гневного предложения.

В этом случае полезно иметь представление о том, как делается аннотация и какой контекст имеют аннотаторы для данных. Опять же - хороший повод сделать потребителей аннотаторами!

Смещение интерпретации прогнозов (смещение подтверждения)

И последнее, но не менее важное - это предвзятость в интерпретации результатов работы движка AI. Иногда людям просто хочется верить, что технология работает, особенно если они потратили на нее много времени и денег. Итак, если есть место для интерпретации результатов, у заинтересованных сторон может возникнуть соблазн отказаться от своего здорового скептицизма и интерпретировать результаты в более благоприятном свете.

Представьте себе приложение ИИ-гороскоп: оно смотрит вам в глаза, слушает ваш голос, когда вы рассказываете историю, даже считывает ваши отпечатки пальцев и некоторые другие биометрические данные, а на выходе получается серия предсказаний, похожих на гороскопы, о вашей личности. Результат довольно общий, например, «вы дружелюбный, общительный человек, который любит проводить время в одиночестве» - если вы хотите верить, что это приложение работает, нетрудно увидеть этот результат как 100% точный - тем более, что он охватывает и то, и другое. концы личностного спектра в одном и том же предсказании.

Если вы хотите попробовать настоящий, скачайте приложение Moodies от Beyond Verbal - это приложение для распознавания эмоций, которое слушает ваш голос небольшими сегментами и прогнозирует ваше эмоциональное состояние. Хотя он не очень точен, он довольно хорош тем, что просит пользователей «исправить» прогноз, тем самым внося свой вклад в набор тренировок с помощью аннотаций краудсорсинга от конечных пользователей.

Тем не менее предвзятость подтверждения при интерпретации результатов механизма ИИ может быть серьезной проблемой, которая в противном случае могла бы помешать командам создать что-то, что действительно работает, поэтому важно сохранять здоровый скептицизм при оценке результатов - особенно субъективных результатов!

Предотвращение Theranos в AI

С F-оценкой связано множество проблем, большинство из которых выходят далеко за рамки данной статьи, так как даже опытным исследователям искусственного интеллекта сложно держать их во внимании и интуитивно. Здесь мы обсудили некоторые из наиболее важных аспектов систематической ошибки в метрике F-score, особенно в том, что касается более субъективных результатов прогнозирования.

Хотя соблазнительно сосредоточиться на этике в искусственном интеллекте как на проблеме создания разумных машин для убийства, давайте не будем забывать о таких проблемах, как правдивость точности, поскольку наверняка будет больше компаний, подобных Theranos, которые заявляют о невозможном и ускользают от этого из-за простой F.

F-Score: фундаментальный ИИ-инвестор или золото дураков?