В рамках моей стажировки в Digital Fineprint первым проектом, который я предпринял, было построение модели, которая прогнозирует годовую зарплату с использованием описаний, которые можно найти в объявлении о вакансии. В этом исследовании было использовано около 40 000 объявлений о вакансиях и связанных с ними годовых зарплат. Цель этого исследования заключалась в том, чтобы лучше понять рынок труда, выяснить, есть ли определенные факторы, влияющие на заработную плату, и выяснить, как ее можно спрогнозировать с помощью данных, представленных в объявлениях о вакансиях.

Первоначальный визуальный анализ был проведен для лучшего понимания данных и выявления интересных закономерностей, которые могут повлиять на заработную плату. Анализ вакансий с зарплатой ниже 20 000 фунтов стерлингов выявил, что должности в сфере обслуживания клиентов, администрации, секретарей и телефонных продаж, как правило, имеют низкую заработную плату.

С другой стороны, работа с зарплатой выше 50 000 фунтов стерлингов, как правило, требовала навыков управления, а также навыков в области ИТ, таких как «инженерия», «программное обеспечение» и «Java». Финансовый сектор - тоже показатель высокой заработной платы.

После этого быстрого анализа мы использовали методы машинного обучения для построения прогнозной модели. Преимущество использования алгоритмов машинного обучения для решения этой проблемы заключается в том, что он строит модель, которая будет использовать доступные данные (то, что мы называем обучающими данными) в качестве примеров, чтобы автоматически определять закономерности, а затем иметь возможность делать прогнозы с новыми данными. Алгоритм присваивает веса различным факторам в описании, используя данные обучения, и применяет эти веса для оценки заработной платы для нового объявления о работе. Следовательно, мы можем представить, что в соответствии с проанализированными ранее облаками слов алгоритм будет назначать высокие веса таким словам, как «Менеджмент» и «Инженер-программист».

Самая сложная часть при использовании методов машинного обучения - преобразовать данные в формат, который может использоваться алгоритмом машинного обучения. В этом исследовании данные были в основном в текстовом формате, поэтому первым шагом перед применением методов машинного обучения было преобразование этих текстов в числовой формат, который имеет смысл и отражает ту же информацию, что и текст.

Чтобы получить наиболее точный прогноз, к этой проблеме были применены несколько известных методов машинного обучения, и их результаты были сопоставлены. Самый точный тест, который мы проверили, дал среднюю абсолютную ошибку в размере 4790,49 фунтов стерлингов, что означает, что в среднем прогноз отличался от фактического значения на 4790,49 фунтов стерлингов, что мы считаем хорошим результатом, поскольку он включает высокие зарплаты, для которых ошибка составляет 5000 фунтов стерлингов. незначительный. Мы можем сравнить эти результаты с конкурсом Kaggle, запущенным Adzuna, в котором участники также должны прогнозировать годовую заработную плату, но с немного другими данными. Наилучшая средняя абсолютная ошибка, полученная победителем конкурса, составила 3 ​​464,55 фунтов стерлингов; наш результат будет на 15-м месте среди 289 участников.

Ключевым моментом здесь является способность предсказывать текстовые данные после их преобразования с использованием методов обработки естественного языка. Действительно, тот факт, что нам удалось получить точный прогноз с использованием текстовых данных в Интернете, показывает, что текстовые данные с открытым исходным кодом, доступные в Интернете, а также в социальных сетях (через API), являются как большими, так и неиспользованными источниками информации.

Это лишь один из множества разнообразных проектов, которые я предпринял с тех пор, как присоединился к Digital Fineprint. Если вы хотите узнать больше о том, что мы делаем с использованием открытых данных и искусственного интеллекта, чтобы ускорить распространение коммерческого страхования МСП, свяжитесь с нами.