Интервью с Абхишеком Такуром, специалистом по анализу данных и гроссмейстером Kaggle 3x

Сегодня наш собеседник - Абхишек. В настоящее время Абхишек работает в boost.ai в качестве главного специалиста по анализу данных. В прошлом Абхишек работал в ряде компаний специалистом по анализу данных. Он также консультирует стартап Stylumia из Бангалора.

Абхишек - первый в мире тройной гроссмейстер Kaggle. Его наивысший мировой рейтинг в Kaggle - 3. Исследовательские интересы Абхишека находятся в таких областях, как автоматическое машинное обучение, оптимизация гиперпараметров и т. Д. Абхишек также является организатором Берлинской встречи по машинному обучению. Вы знаете больше об Абхишеке отсюда.

Я хотел бы от всей души поблагодарить Абхишека за то, что он нашел время для этого интервью. Я надеюсь, что это интервью послужит цели для улучшения сообществ специалистов по науке о данных и машинного обучения в целом :)

Интервью с Абхишеком Такуром, специалистом по анализу данных и гроссмейстером Kaggle 3x

Саяк: Привет, Абхишек! Спасибо за интервью. Рад видеть вас здесь сегодня.

Абхишек: Спасибо, Саяк. Удовольствие все мое.

Саяк: Может быть, вы могли бы начать с того, чтобы представиться - какова ваша нынешняя работа и каковы ваши обязанности там?

Абхишек: я работаю главным специалистом по анализу данных в boost.ai, компании, базирующейся в Норвегии. Мы создаем ИИ для общения. Моя работа заключается в реализации современных компонентов обработки / понимания естественного языка и моделей глубокого обучения, которые мы используем для ответа конечным пользователям и обеспечения их постоянной работы.

Саяк: Интересно! Не могли бы вы рассказать, как вы заинтересовались наукой о данных и машинным обучением?

Абхишек: Я всегда интересовался информатикой, поэтому после получения степени бакалавра электроники в NIT Surat, Индия, я переехал в Германию, чтобы получить степень магистра компьютерных наук в Боннском университете. Я учился в Fraunhofer во время учебы в магистратуре, и моя работа заключалась в реализации алгоритмов OCR на микроконтроллерах. Мои друзья работали с НЛП и машинным обучением. Общение с ними заинтересовало меня в этой области, и я начал с машинного обучения.

Мои друзья работали с НЛП и машинным обучением. Общение с ними заинтересовало меня в этой области, и я начал с машинного обучения.

Саяк: Это приятно знать. Великие дела часто начинаются с правильного разговора. Когда вы только начинали, с какими проблемами вы столкнулись? Как вы их преодолели?

Абхишек: Во-первых, у меня не было предметов по машинному обучению. Я пробовала взять ту из университета, но с треском провалилась. Все курсы были теоретическими и практически не касались каких-либо прикладных концепций. Я начал учиться самостоятельно. Я нашел Kaggle и начал с текущего конкурса. Излишне говорить, что я потерпел неудачу. Затем я проверил решения победителей и наткнулся на огромные термины, такие как случайный лес, нейронные сети и т. Д. Итак, я начал гуглить и искать эти термины. Я нашел много статей, я их прочитал, даже реализовал некоторые из них, а затем я прочитал еще. Так продолжалось 10 месяцев. Я бы начал с проблемы и узнал, как ее решить, пытаясь решить.

Я бы начал с проблемы и узнал, как ее решить, пытаясь решить.

Саяк: Ого! Это было довольно прилежно, и я, конечно, думаю, что эта энергичная философия работает хорошо, особенно если вы занимаетесь реализацией вещей. Какие из главных проектов вы реализовали в годы становления?

Абхишек: У нас не было никаких завершающих проектов, у нас была магистерская диссертация. Моя диссертация была посвящена компьютерному зрению, связанному с выделением изображений. Это было почти не связано с машинным обучением. Если я правильно помню, только алгоритм, связанный с машинным обучением, который я использовал, был K-Nearest Neighbours.

Саяк: Понятно, спасибо, что поделились этим. Твоя работа над Kaggle до сих пор была супер потрясающей. Хотели бы вы поделиться советами о том, как вы подходите к решению проблем в Kaggle?

Абхишек: Мой подход к любой проблеме заключается в том, чтобы начать с базового взгляда на данные и с простейших моделей. Все дело в построении личного теста и его постепенном улучшении. Например, если проблема связана с классификацией текста, я начинаю с TF-IDF, а не с BERT. Когда мне кажется, что я получил результат, который нельзя улучшить традиционными методами, я погружаюсь в более глубокие и продвинутые модели.

Например, если проблема связана с классификацией текста, я начинаю с TF-IDF, а не с BERT. Когда мне кажется, что я получил результат, который нельзя улучшить традиционными методами, я погружаюсь в более глубокие и продвинутые модели.

Саяк. Эти области науки о данных и машинного обучения стремительно развиваются. Как вам удается отслеживать последние важные события?

Абхишек: большую часть нового я узнаю из социальных сетей. Есть много гениальных людей, за которыми следует следить, и они часто делятся тем, над чем работают, например, в Twitter, Reddit и даже в LinkedIn. Я держу себя в курсе последних событий, используя эти каналы, и последних статей через ArXiv и Papers with code.

Саяк: Я думаю, что среди всех упомянутых вами ресурсов Twitter, безусловно, мой любимый. Лично я часто использую его, чтобы познакомиться с последними новинками. Как практикующий, я часто сталкиваюсь с проблемой изучения новой концепции. Вы бы хотели поделиться своим подходом к этому процессу?

Абхишек: Всегда сложно выучить новую концепцию. Для меня проблема становится немного проще, когда мы узнаем о применении концепции и о том, как она используется. Допустим, я впервые учусь решать задачи временных рядов. Я бы начал с моего собственного традиционного подхода и попытался бы на его основе построить базовую линию. Тогда я бы продолжил улучшать базовый уровень. Когда я устаю от того, что я пробовал, я начинаю искать разные подходы к решению проблемы. Таким образом, я продолжаю узнавать о новых концепциях и приложениях одновременно. Я придерживаюсь этого подхода уже давно. Учиться путем практики :)

Саяк: учиться на собственном опыте и получать для этого мотивацию - действительно здорово! Можем ли мы ожидать книгу с вашего конца в ближайшее время?

Абхишек: Я был соавтором книги, но мало о ней говорю. На самом деле, я кое-что планирую, так что ждите анонса очень скоро :)

Саяк: Замечательно! Я с нетерпением этого жду! Есть какие-нибудь советы новичкам?

Абхишек: В этой области происходит так много всего, что иногда это становится ошеломляющим, особенно для новичков. Большинство новичков чувствуют себя истощенными, когда начинают заниматься машинным обучением, и не знают, с чего начать. Есть неплохие курсы от Эндрю Нга, и он объясняет самые сложные вещи самым простым способом. Я бы посоветовал сначала получить теоретические знания и как можно скорее начать работу с приложениями. Выберите задачу на Kaggle, а не на настоящих соревнованиях 101, и попробуйте их на том, что вы узнали. Посмотрите, как другие решают ту же проблему, и реализуйте их самостоятельно. Не копируйте и не вставляйте. Когда вы потерпите неудачу, повторите, и у вас все получится. В наши дни также очень важно иметь хорошее портфолио проектов, и эти конкурсы помогут и в этом. Недавно я также открыл канал на YouTube, посвященный прикладному машинному обучению и удобный для начинающих. В конце концов, все дело в настойчивости.

В конце концов, все дело в настойчивости.

Саяк: Абсолютно согласен, особенно в том, что касается начала проектов с Kaggle. Большое спасибо, Абхишек, за это интервью и за то, что поделился своими ценными идеями. Я надеюсь, что они будут очень полезны сообществу.

Абхишек: Спасибо, Саяк! Это было абсолютное удовольствие.

Надеюсь, вам понравилось читать это интервью. Следите за этим местом для следующего, и я надеюсь увидеть вас в ближайшее время. Здесь где можно найти все интервью, сделанные на данный момент.

Если вы хотите узнать обо мне больше, загляните на мой сайт.

Интервью с Абхишеком Такуром, специалистом по анализу данных и гроссмейстером Kaggle 3x

Интервью с Абхишеком Такуром, специалистом по анализу данных и гроссмейстером Kaggle 3x

Вопросы по теме