Насколько сильно ваша модель распознавания лиц или речи загрязнила мир до сих пор?

По всей видимости, это не ерунда, как звучит. Сегодня мы по-прежнему полагаемся на загрязняющие окружающую среду способы производства более половины нашей электроэнергии. Модели машинного обучения требуют гораздо большей мощности и ресурсов, чем любые другие типы алгоритмов. Поэтому, когда дело доходит до воздействия на окружающую среду, машинное обучение действительно загрязняет.

И, согласно недавно опубликованной статье, он действительно сильно загрязняет. Каждая из современных моделей обработки естественного языка требовала для обучения количества энергии, которое в эквиваленте выбросов CO2 в пять раз превышает выбросы CO2 средним американским автомобилем на протяжении всего срока его службы. .

Оптимизация занимаемой нами вычислительной деятельности может показаться занятием для размышлений, но на самом деле это дает больше преимуществ, чем решение других задач, которые, хотя и более заметны, имеют относительно меньшее влияние. Теоретически, если бы все модели машинного обучения в мире были «безуглеродными», то воздействие с точки зрения более низких выбросов парниковых газов могло бы быть сопоставимо с тем, которое вы испытали бы, если бы количество традиционных автомобилей в США сократилось на 10. %.

Два решения проблемы:

1. Первое очевидное решение: ускорить переход к возобновляемым источникам. Дорогостоящие ресурсы алгоритмы (алгоритмы машинного обучения - это одна категория, но они не единственная - блокчейн, я смотрю на вас) загрязняют окружающую среду, потому что электричество, на которое они полагаются, поступает из источников загрязнения. Переход на чистые источники решит проблему в корне.

2. Стимулируйте обмен обученными моделями. Понятно, что такие компании, как Google, Facebook и Tesla, рассматривают свои данные и свои модели как свое личное сокровище, поскольку на их разработку им потребовалось много времени и денег, и они играют важную роль в определении своей рентабельности. Но если каждая компания будет изобретать колесо в собственной закрытой среде, тогда мы будем стремиться максимизировать, а не минимизировать потребности в энергии. Совместное использование данных и модели машинного обучения уже следует поощрять по другим причинам (а именно, это снижает влияние монополий и олигополий за счет снижения входного барьера на рынок), но теперь это также имеет экологическую мотивацию. И крупные ИТ-компании в долгосрочной перспективе также выиграют от этого.

Во-первых, их модели будут построены на основе гораздо более разнообразного и богатого набора данных - одно дело - попросить группу белых мужчин-разработчиков и специалистов по обработке данных в возрасте от 25 до 35 лет построить модель распознавания лиц, а другое - предложить взносы со всего мира.

Во-вторых, множество новых бизнес-моделей может быть построено вокруг генерации данных и экономики совместного использования данных, чтобы гарантировать максимальную выгоду для всех вовлеченных сторон (Amazon уже была пионером в этой области десять лет назад, когда она начала механический turk project », необходимо больше подобных инициатив).

И последнее, но не менее важное: обучение одной модели раз в неделю для всех, а не тысячи раз в неделю в каждом малом бизнесе, позволит человечеству гораздо меньше загрязнять окружающую среду, а общая модель станет намного лучше.

Google уже раскрыл код своих моделей (Tensorflow et similia), но этого недостаточно. Когда дело доходит до машинного обучения, код без данных похож на машину без топлива. Такие проекты, как OpenAI, Mateverse, Snowboy или другие совместные проекты и платформы машинного обучения, должны стать нормой, а не исключением. Если обучение модели похоже на вождение автомобиля, то поделиться моделью - это все равно, что полагаться на более экологичную программу совместного использования автомобилей.