В моем предыдущем рассказе я пытался объяснить энтропию. Мой предыдущий рассказ вы можете найти здесь. В этой истории я попытаюсь объяснить интуицию, лежащую в основе получения информации, где ее использовать и как ее рассчитать.

В отличие от энтропии, прирост информации имеет дело с двумя переменными. Он измеряет, сколько информации содержит переменная по отношению к другой переменной. В простейшем случае это уменьшение энтропии. Прирост информации используется в деревьях решений. Дерево решений — это алгоритм классификации. Дерево решений разделяет данную функцию на определенные точки с конкретными вопросами, разветвляя ее. Делая это, он пытается максимизировать получение информации. Другими словами, он пытается минимизировать энтропию в каждой ветви. Подводя итог, можно сказать, что прирост информации говорит нам об уменьшении энтропии при каждом расщеплении.

Давайте проясним эту концепцию на простом примере.

Вышеупомянутый игрушечный набор данных содержит 14 образцов измерений ветра и их уважаемые записи о пикнике / без пикника. Первое, что нужно сделать, это выяснить, сколько информации содержится в столбце Пикник. Имеется 9 записей Evet и 5 записей Hayır, всего 14 измерений. Таким образом, энтропия переменной Picnic следующая.

Теперь, если мы разделим переменную Picnic на ветровую ситуацию var/yok, среднее снижение энтропии будет информационным приростом. Для этого поместим измерения Evet и Hayır рядом друг с другом в ряд и разделим их по измерениям ветра.

Здесь мы должны найти энтропию в каждом листовом узле. Затем мы собираемся вычислить средневзвешенное значение энтропии с учетом количества E/H в каждом узле.

В крайнем левом листовом узле энтропия равна 1, поскольку вероятность выбора буквы составляет 0,5 для E и 0,5 для H. Для правого узла мы можем рассчитать энтропию следующим образом.

Теперь мы можем вычислить средневзвешенную энтропию. Слева 6 сэмплов, справа 8 сэмплов. Следующее уравнение вычисляет средневзвешенное значение.

Последняя часть вычисляет снижение энтропии. Нам просто нужно извлечь среднюю энтропию из первого.

Этот результат говорит нам, что если мы разделим переменную Picnic по ветру, то энтропия уменьшится на 0,0561. Другими словами, в этом разделении будет 0,0561 прироста информации.

В дереве решений мы делаем это для всех независимых переменных. Мы рассчитываем каждый отдельный прирост информации для всех независимых переменных. Затем мы выбираем функцию, которая вызывает наибольшее снижение энтропии, и разбиваем дерево на ветви. Мы продолжаем процесс до тех пор, пока не перестанут выполнять разбиение (энтропия равна 0) или пока не будет выполнено условие остановки (максимальное количество разбиений или максимальная глубина дерева). Существует несколько способов расчета прироста информации для разных целей. Получение информации — лишь один из них. Возможно, в другом посте я напишу о некоторых из них. А пока, увидимся в другой день. Пока…