4 секретных документа по машинному обучению, которые стоит прочитать (часть 1)

Эти 4 документа по машинному обучению помогут вам по-другому взглянуть на мир

Чтобы помочь мне понять вас, заполните этот опрос (анонимно)

При всем финансировании, талантах и ажиотаже вокруг глубокого обучения публикуется множество новаторских статей по машинному обучению. Некоторые из них, такие как DALL-E и разумная языковая модель LambDa от Google, привлекли к себе большое внимание. Другие исследования глубокого обучения, проводимые крупными организациями, также привлекают внимание людей, вовлеченных в сообщество машинного обучения. Тем не менее, многие документы по машинному обучению остались незамеченными. В этой статье я поделюсь 5 такими замечательными работами, которым нужно уделить больше внимания. Эти документы помогли мне стать намного лучше в машинном обучении и сделают вас гораздо лучшим инженером глубокого обучения. Любой, кто интересуется наукой о данных, машинным обучением, инженерией глубокого обучения или исследованиями в области искусственного интеллекта, обязательно должен быть знаком с этим.

Бумаги

Ниже приводится краткое изложение документов, которые я буду рассматривать в этой статье:

Учет вариаций в тестах машинного обучения» —В этом документе рассматривается, как сравнение различных моделей на стандартных тестах часто ошибочно. Оказывается, перетасовка совершенно произвольных факторов может полностью изменить результаты вашей оценки. Их исследование также показывает, как мы можем улучшить несовершенные модели при 51-кратном снижении затрат на обучение.
TrivialAugment: не требующее настройки, но современное увеличение данных — увеличение данных изменило правила игры в глубоком обучении, особенно для компьютерного зрения и обработки естественного языка. Это привело к большому количеству исследований очень сложных политик увеличения данных. TrivialAugment достигает максимальной производительности при самых низких затратах на обучение. Не верите мне? Читай дальше.
Женева: разработка стратегий уклонения от цензуры —используйте машинное обучение (эволюционные алгоритмы), чтобы обойти государственную цензуру. Нужно ли мне сказать больше?
Состязательные примеры — это не ошибки, это особенности. Состязательные образцы были постоянной проблемой для машинного обучения. Но почему сложные модели глубокого обучения не работают с изображениями, которые выглядят так же, как люди? В этой статье представлена убедительная теория. Принципы могут быть расширены за пределы задач классификации компьютерного зрения.

Это очень впечатляющий (и очень нужный) список документов по глубокому обучению, о которых вам следует знать. Давайте приступим к делу.

Учет дисперсии показателей машинного обучения

Вспомните, как вы сравниваете производительность двух моделей машинного обучения. Скорее всего, вы запускаете их на одних и тех же наборах данных и сравниваете их производительность в соответствующих задачах. Все хорошо и хорошо.

Однако оказывается, что машинное обучение намного сложнее и хаотичнее, чем думает большинство людей. Такие кажущиеся произвольными факторы, как порядок данных, могут исказить производительность моделей. В итоге мы получаем очень неверные результаты. Кроме того, иногда небольшие изменения в настройках гиперпараметров (о которых большинство людей не подозревают) приводят к несправедливым и неточным протоколам оценки. Подумайте, сколько денег такие компании, как Google и Netflix, потратят на свои рекомендательные системы. Теперь представьте, что вы говорите им, что многие их результаты недействительны, потому что машинное обучение может стать хаотичным. Безумцы этой газеты говорят это и многое другое.

К счастью, интеллектуальный дизайн ваших конвейеров машинного обучения позволит вам избежать этих проблем, выбрать лучшие модели и, в конечном итоге, создать лучшие модели. Авторы этой статьи делятся лучшими практиками, чтобы сделать то же самое. Если вам интересно узнать больше об этом документе, ознакомьтесь с его разбивкой под названием Почему вам нужно тратить больше времени на оценку ваших моделей машинного обучения. Используйте их знания для создания потрясающих конвейеров машинного обучения, которые действительно работают. И не ударит по вашему бюджету.

Мы показываем контринтуитивный результат: добавление большего количества источников вариаций к несовершенному оценщику лучше приближает его к идеальному оценщику при снижении вычислительных затрат.

TrivialAugment: современное расширение данных, не требующее настройки

Оказывается, больше не всегда лучше. Иногда меньше значит больше. TrivialAugment — это очень… тривиальная политика расширения данных, которая показала потрясающие результаты в Computer Vision. Это самая простая политика увеличения данных, какую только можно себе представить. Думаете, я шучу? Это полный алгоритм, описанный в статье.

Идеальная метафора для современного машинного обучения: статья, посвященная TrivialAugement, была опубликована в 2021 году. Люди тестировали очень причудливые политики на основе машинного обучения, прежде чем протестировали эту идею. А вот и кикер. ТА побеждает их всех.

Чтобы узнать больше об этой статье, ознакомьтесь с TrivialAugment: следующая эволюция в расширении данных. Он более подробно анализирует выводы и выводы.

Проект Женева

Для тех из вас, кто заинтересован в свободном и открытом Интернете, эта статья действительно изменит правила игры. Для меня этот проект — одно из самых эффективных применений машинного обучения. Команда Project Geneva использует машинное обучение, чтобы обойти цензуру со стороны реальных правительств. Их работа позволила гражданам со всего мира получить больше доступа к бесплатному Интернету.

Их проект может многому научить вас в области сетей, кибербезопасности и того, как можно использовать генетические алгоритмы для решения проблем, не имеющих дифференцируемого пространства для решения. Их инструмент с открытым исходным кодом, и каждый может принять участие и попытаться улучшить его. Вы можете запустить его, чтобы узнать о процедурах цензуры, применяемых в вашей стране. Если вы хотите узнать больше об этом проекте, я рассказал об этом здесь.

Состязательные примеры — это не ошибки, это особенности

Состязательное обучение — это особый вид машинного обучения. Это включает в себя подачу классификаторам ML специально модифицированных входных данных, разработанных входных данных. Этот ввод выглядит нормально для человеческого глаза, но приведет к тому, что классификатор сломается и неправильно классифицирует изображение.

Люди пытались выяснить, почему состязательное обучение так эффективно, как оно есть. Как некоторые изменения изображения (часто незаметные) могут привести к таким резким различиям? Что ж, у команды из Массачусетского технологического института есть интересная теория.

Они утверждали, что характеристики изображения можно разделить на 2 категории — надежные и ненадежные. Если вы немного подкорректируете надежные функции, классификатор все равно предскажет правильную метку. Однако небольшие изменения в ненадежных функциях испортят ваш классификатор и приведут к неправильной маркировке.

Эта статья очень интересна, потому что она имеет несколько интересных следствий. Во-первых, изучение этой концепции надежных функций в других областях было бы увлекательным и могло бы привести к отличным результатам. Когда дело доходит до безопасности ИИ и надежного ИИ, это определенно стоит изучить.

Во-вторых, использование только надежных функций также сократит затраты на обучение/тестирование. Имейте в виду, что каждая функция экспоненциально увеличивает затраты на обучение. В тех случаях, когда важен масштаб и приемлемо "отлично, но не на 99 %" (что характерно для большинства решений машинного обучения), исследование надежных функций может стать отличным способом создания безопасного ИИ, который не страдает от Проклятие размерности.

Чтобы узнать больше об этой статье, прочитайте это.

Удостоверьтесь, что вы нашли время и изучили эти документы/проекты. У них может не быть фактора обета DALL-E или GPT-3, но все упомянутые документы могут многому вас научить и сделать вас лучше в машинном обучении. Они, конечно, взорвали мой мозг, когда я их прочитал.

Если вы хотите заняться машинным обучением, в этой статье вы найдете пошаговый план развития навыков машинного обучения. Он использует БЕСПЛАТНЫЕ ресурсы. В отличие от других учебных лагерей/курсов, этот план поможет вам развить базовые навыки и настроить себя на долгосрочный успех в этой области.

Для машинного обучения крайне важна база в области разработки программного обеспечения, математики и компьютерных наук. Это поможет вам концептуализировать, построить и оптимизировать машинное обучение. Мой ежедневный информационный бюллетень Интервью по технологиям — это просто охватывает темы проектирования алгоритмов, математики, последних событий в области технологий, разработки программного обеспечения и многого другого, чтобы помочь вам стать лучшим разработчиком. Сейчас действует скидка 20 % на ЦЕЛЫЙ ГОД, так что не забудьте проверить ее.

Я создал Технологические интервью, сделанные просто, используя новые методы, полученные в результате обучения нескольких людей в ведущих технологических компаниях. Информационный бюллетень предназначен для того, чтобы помочь вам добиться успеха, избавив вас от часов, потраченных впустую на работу с Leetcode. У меня есть политика 100% удовлетворения, поэтому вы можете попробовать ее без риска для себя. Вы можете прочитать FAQ и узнать больше здесь

Не стесняйтесь обращаться, если у вас есть какие-либо интересные работы/проекты/идеи для меня. Всегда рад вас выслушать.

Свяжитесь со мной

Воспользуйтесь ссылками ниже, чтобы ознакомиться с другим моим контентом, узнать больше о репетиторстве или просто поздороваться. Кроме того, ознакомьтесь с бесплатной реферальной ссылкой Robinhood. Мы оба получаем свободный сток (денег вкладывать не надо), и никакого риска для вас нет. Таким образом, если вы не используете его, вы просто потеряете бесплатные деньги.

Ознакомьтесь с другими моими статьями на Medium. : https://rb.gy/zn1aiu

Мой Ютуб: https://rb.gy/88iwdd

Свяжитесь со мной в LinkedIn. Подключаемся: https://rb.gy/m5ok2y

Мой Инстаграм: https://rb.gy/gmvuy9

Мой Твиттер: https://twitter.com/Machine01776819

Если вы готовитесь к программированию/техническим интервью: https://codinginterviewsmadesimple.substack.com/

Получите бесплатный сток на Robinhood: https://join.robinhood.com/fnud75

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com