Эпоха суперспециалистов по данным: мутируйте с помощью ChatGPT и подобных

С помощью ChatGPT один эквивалент полной занятости (FTE) может сократить время, затрачиваемое на задачи разработки предварительной модели, на 33%, и сократить время, затрачиваемое на задачи разработки модели, на 50%.

1. Введение

Интеграция передовых языковых моделей ИИ, таких как ChatGPT, в рабочие процессы обработки данных вызвала споры об их потенциале превратить специалистов по данным в сверхпродуктивных профессионалов.

Давайте посмотрим на интересные цифры и факты из авторитетных источников, чтобы как поддержать, так и оспорить идею о том, что ChatGPT и аналогичные инструменты ИИ могут поднять производительность специалистов по данным до уровня «супер специалистов по данным».

Поддерживающий аргумент: повышение эффективности и производительности

Исследование, проведенное OpenAI, показало, что специалисты по данным, которые включили ChatGPT в свои рабочие процессы, в среднем на 40 % сократили время, затрачиваемое на повторяющиеся задачи по очистке и предварительной обработке данных (Исследование OpenAI 2022).
В опросе групп специалистов по обработке и анализу данных, проведенном DataRobot, 80 % респондентов сообщили, что искусственный интеллект и инструменты машинного обучения, включая языковые модели, такие как ChatGPT, значительно повысили их производительность и эффективность в задачах анализа данных и моделирования ( Обзор DataRobot, 2022 г.).
Согласно отчету Gartner, ведущей исследовательской и консалтинговой компании, к концу 2023 года более 50 % специалистов по обработке и анализу данных будут использовать виртуальных помощников на базе ИИ, таких как ChatGPT, для оптимизации своих рабочих процессов и повышения производительности. (Отчет Gartner, 2022 г.).
Исследователи данных, использующие ChatGPT в качестве виртуального помощника, сообщают о увеличении скорости получения предварительных сведений и практических рекомендаций на основе сложных наборов данных на 25% по сравнению с традиционными ручными методами (Независимый опрос пользователей, 2022 г.).

Сложный аргумент: человеческий опыт, конфиденциальность данных и интерпретируемость модели

Исследование, опубликованное в Журнале исследований искусственного интеллекта (JAIR), высветило проблему интерпретируемости моделей ИИ, таких как ChatGPT, подчеркнув, что специалисты по данным часто пытаются понять причины, лежащие в основе идей, генерируемых ИИ (Публикация JAIR, 2021).
Некоторые специалисты по данным сообщили, что, хотя ChatGPT может помочь в автоматизации определенных задач, они тратят дополнительное время на проверку результатов, сгенерированных ИИ, из-за опасений по поводу возможной предвзятости и отсутствия прозрачности в модели ИИ (Ученый по данным Интервью, 2022).
Исследование Массачусетского технологического института, проведенное в 2022 году, предостерегало от использования исключительно инструментов ИИ, таких как ChatGPT, в сложных проектах по обработке и анализу данных, поскольку знание предметной области и креативность считались необходимыми для получения точных и действенных идей (Исследование MIT, 2022 г. ).
В отчете International Data Corporation (IDC) за 2021 г. поднимались вопросы конфиденциальности и безопасности, связанные с конфиденциальными данными, что привело к осторожному внедрению инструментов искусственного интеллекта, таких как ChatGPT, в рабочие процессы обработки данных (Отчет IDC, 2021 г.).

2. Понимание рабочего процесса и ключевых показателей эффективности Data Science

Рабочий процесс науки о данных следует структурированному процессу создания моделей, управляемых данными. Он включает в себя идентификацию проблемы, сбор данных, их подготовку и преобразование, построение модели, оценку ее производительности и, наконец, ее развертывание.

В этой сводке представлен обзор рабочих процессов обработки данных и их ключевых показателей эффективности (KPI) для облегчения понимания.

3. Количественное влияние ChatGPT на рабочий процесс обработки данных

С помощью ChatGPT один эквивалент полной занятости (FTE) может сократить время, затрачиваемое на задачи разработки предварительной модели, на 33%, и сократить время, затрачиваемое на задачи разработки модели, на 50%.

4. Как стать суперспециалистом по данным с помощью ChatGPT?

Чтобы использовать повышение производительности с помощью ChatGPT, специалисты по обработке и анализу данных должны научиться быстрому проектированию и провести сравнительный анализ между традиционными методами построения моделей и методами с помощью ChatGPT.

Вот пошаговый метод измерения повышения производительности:

Шаг 1. Определите ключевые показатели эффективности (KPI):

Определите конкретные KPI, которые представляют производительность и эффективность в процессе построения модели. Примеры включают:

Время, затраченное на разработку модели от предварительной обработки данных до развертывания.
Количество итераций, необходимых для уточнения модели.
Показатели точности и производительности сгенерированных моделей.

Шаг 2: Традиционное базовое построение модели:

Установите базовый уровень, внедрив традиционный процесс разработки модели без помощи ChatGPT. Измерьте выбранные KPI для этого базового подхода.

Шаг 3: Интегрируйте ChatGPT в процесс:

Включите ChatGPT в процесс разработки модели, чтобы помочь специалистам по данным на различных этапах, таких как очистка данных, разработка функций и настройка гиперпараметров.

Шаг 4. Измерьте построение модели с помощью ChatGPT:

Запишите ключевые показатели эффективности в процессе построения модели с помощью ChatGPT. Сравните результаты с базовыми измерениями, чтобы количественно оценить улучшения.

Шаг 5. Соберите отзывы специалистов по данным:

Проведите опросы или интервью с учеными, которые использовали ChatGPT, чтобы получить качественные отзывы об их опыте, удовлетворенности и предполагаемом повышении производительности.

Шаг 6: Оцените точность и качество моделей:

Оцените точность и качество моделей, созданных с помощью ChatGPT, по сравнению с базовыми моделями, учитывая такие факторы, как производительность модели, обобщение и интерпретируемость.

Шаг 7: Рассчитайте повышение производительности:

Рассчитайте процентное улучшение определенных KPI для процесса построения модели с помощью ChatGPT по сравнению с традиционным базовым уровнем.

Шаг 8: Оценка рисков и управление:

Оцените любые потенциальные риски или проблемы, связанные с использованием ChatGPT в финансовом контексте, такие как соблюдение нормативных требований, конфиденциальность данных и интерпретируемость модели. Убедитесь, что управление наукой о данных и процесс аудита учитывают эти проблемы.

5. Резюме

Интеграция языковых моделей ИИ, таких как ChatGPT, в рабочие процессы обработки данных продемонстрировала многообещающий потенциал для повышения эффективности и производительности. Сокращение времени, затрачиваемого на повторяющиеся задачи, позволяет специалистам по данным сосредоточиться на более важных аспектах своей работы.

Однако проблемы, связанные с интерпретируемостью моделей, человеческим опытом и конфиденциальностью данных, необходимо решить, чтобы в полной мере использовать преобразующую силу ИИ для создания «суперспециалистов по данным».

Синергия между человеческим интеллектом и инструментами на базе ИИ проложит путь новому поколению специалистов по данным, способных решать сложные задачи и внедрять инновации в мире, управляемом данными.