Давайте начнем сегодня с небольшого мыслепузыря.

Вы находитесь возле китайского продуктового магазина, буррито и немецкого гастронома. Вы никогда не были внутри ни одного из них, поэтому вы, честно говоря, понятия не имеете, что каждый из них продает. Теперь вы видите женщину, идущую с коробкой лунных пряников. Как вы думаете, из какого магазина только что вышла женщина?

Я надеюсь, вы сказали китайский продуктовый магазин. И почему вы так думаете? Вы стереотипируете. Не нужно стыдиться, мы все делаем. (Конечно, то, о чем вы стереотипируете, — это совсем другая тема.) В любом случае, вы понимаете (надеюсь), что лунные пряники — это китайские десерты и, следовательно, они связаны с магазином, в котором продаются китайские товары.

Разве не может быть, что лунные лепешки продаются в буррито или в немецком гастрономе? Это определенно возможно. Может быть, владелец-немец решил пойти на курсы выпечки и научился делать лунные лепешки. Или, может быть, ресторан, где готовят буррито, не может позволить себе нанять производителей буррито, поскольку они недавно объединились в профсоюзы и теперь вынуждены довольствоваться людьми, которые умеют только делать лунные лепешки. Дело, однако, в том, что у лунных пряников самая высокая вероятность быть проданными в китайском продуктовом магазине.

Мы можем сделать много выводов из стереотипов. И, возможно, неполиткорректно, но многие из них верны. В этом вся суть современного алгоритма машинного обучения: ближайший сосед.

Ближайший сосед

Ближайший сосед (NN) просматривает точку данных, которую вы хотите классифицировать, и определяет, какая существующая классифицированная точка данных больше всего похожа на точку данных, которую вы хотите классифицировать.

Посмотрите на диаграмму выше. Если вы не прокляты красно-синим дальтонизмом, вы должны заметить, что большинство республиканцев старше и имеют более высокий годовой доход. Итак, давайте начнем со стереотипного представления старых богатых людей о республиканцах. Как вы понимаете, это не обязательно так, но, согласно диаграмме, БОЛЬШИНСТВО старых и богатых людей — республиканцы. То есть существует более высокая вероятность того, что старый богатый человек является республиканцем, а не демократом. И наоборот для демократов.

Итак, вы только что познакомились с Сарой в Tinder. Используя то, что вы узнали из предыдущей статьи из этой серии, вы смогли договориться о свидании!!! Тем не менее, вы должны сначала убедиться, что она подходит для свиданий.

Ей 25 лет, она аспирантка (она же сломалась). Она зеленая точка! Вы хотите узнать, демократ она или республиканец, и вы не можете просто подойти и спросить. Это грубо. Итак, что вы (и алгоритм ближайшего соседа) сделали, так это нашли человека, который больше всего похож на нее по возрасту и доходу (то есть ее ближайшего соседа), и проверили, является ли этот человек демократом или республиканцем. На диаграмме ее ближайший сосед — синяя точка. Итак, теперь вы собираетесь создать стереотип и предположить, что она демократ. Оглядываясь назад на данные, вы видите, что она, похоже, находится в положении, когда вероятность того, что она демократ, выше, поэтому стереотипизация здесь кажется разумной.

K-ближайшие соседи

Теперь возникает вопрос: что, если она ближе к одной из красных точек в регионе Young and Broke? Не будет ли она тогда классифицирована как республиканка, хотя мы знаем, что у нее больше шансов быть демократом?

И ответ будет громким ДА, по крайней мере, только с ближайшим соседом! Именно здесь проявляется усовершенствованная форма ближайшего соседа: K-ближайшие соседи.

Если бы Ближайший Сосед был Чармандером, K-Ближайшие Соседи (K-NN) были бы Чаризардом. K-NN смотрит НЕ ТОЛЬКО на ближайшего соседа, но и на других ближайших соседей. Сколько рядом соседей? K рядом соседи. То есть, если K = 5, 5 ближайших к Саре соседей будут учитываться при определении того, является ли Сара республиканцем или демократом.

Мы предполагаем, что соседи, находящиеся ближе к Саре, с большей вероятностью представляют политические взгляды Сары.

Итак, поскольку республиканец наиболее близок к Саре по возрасту и годовому доходу, мы немного больше рассмотрим политические взгляды этого соседа. Но также спрашиваем у остальных 4-х ближайших соседей Сары. Удивительно, но следующие 4 ближайших соседа — демократы.

Несмотря на то, что эти 4 соседа находятся дальше от Сары, чем республиканцы (и, следовательно, по отдельности они имеют меньшую вероятность совпадения с политическими взглядами Сары), число соседей, идентифицирующих себя как демократы, перевешивает 1 резко выделяющегося республиканца. Итак, мы (и K-NN) будем считать, что Сара — демократ, хотя ближе всего к ней республиканец.

Что такое взвешивание? (Необязательно, прочтите, если хотите быть умнее или запутаться 🤷)

Мы называем это взвешиванием. Мы могли бы немного больше ценить политические взгляды соседей, находящихся ближе к Саре, но соседи, находящиеся дальше от Сары (в сумме), могут перевесить некоторых из ближайших соседей.

Скажем, я даю 5 баллов первому ближайшему соседу, 4 балла второму ближайшему соседу, 3 балла третьему ближайшему соседу и т. д.

Republican = 5 (первый ближайший сосед)

Демократ = 4 + 3 + 2 + 1 = 10 (2-й, 3-й, 4-й и 5-й ближайшие соседи)

У демократов по-прежнему больше очков, потому что у них больше соседей в первой пятерке соседей, хотя ни у одного из них по отдельности нет больше очков, чем у республиканца, который является первым ближайшим соседом.