Как венчурный капиталист, я встречаюсь с основателями, создающими услуги/продукты на основе машинного обучения, надеясь, что это станет следующим AlphaGo или ChatGPT. Моя работа состоит в том, чтобы четко видеть, каков их ров (против других крупных технологических гигантов и ведущих исследователей по всему миру), читая их колоды и данные в комнате данных (в основном финансовые документы). Основатели редко предоставляют венчурным капиталистам доступ к своему коду, набору данных или моделям обучения. Поэтому мне приходится задавать вопросы (и продолжать задавать, пока не получу ответы), чтобы понять их технологию, данные и то, что они пытаются решить.

Вот основные вопросы, которые я задаю:

Данные

У них есть ров данных? Есть ли у них собственный набор данных, которого нет ни у кого из других игроков?

💡 examples Данные ЭКГ пациентов с проблемами, связанными с сердцем, данные о событиях с бозоном Хиггса от столкновений между протонами в БАК могут быть примерами рва данных, чтобы назвать несколько.

Собирают ли они данные экономичным способом?

💡 в коммерческом сервисе не будет смысла, если собирать и обрабатывать данные экономически нецелесообразно, хотя в академических целях, возможно, стоит этим заниматься. Обратите внимание, что предварительная обработка или очистка данных могут стоить дорого — спросите, как они проводят очистку, предварительную обработку, разработку функций, уменьшение размеров, тегирование, маркировку и преобразование, чтобы данные были готовы для обучения модели.

Насколько велики данные? Достаточно ли у них данных для запуска сервиса?

💡 Если они создают продукт с использованием НЛП, им понадобится большая языковая база данных. Например, если они используют IMDB для анализа фильмов, то в списке IMDB всего 7,9 млн наименований. Если они проводят исследования по выявлению редких видов рака у детей, вероятно, будет доступен даже меньший набор данных.

Вычисления

Как производится вычисление?

Сколько GPU (или TPU) требуется? Выполняют ли вычисления роль рва от конкурентов?

Как они оплачивают стоимость вычислений? Является ли стоимость вычислений разумной и устойчивой?

Модель

Какую модель машинного обучения они используют?

Является ли модель открытым исходным кодом или проприетарной?

💡 В большинстве случаев стартапы берут модель с открытым исходным кодом (от open.ai, google, meta, microsoft и академических кругов) и могут дорабатывать ее, чтобы она лучше соответствовала их собственным целям.

Сервис критически зависит от модели?

Компетенция

Где они соревнуются?

Инфраструктура (облако данных и уровень вычислений), Уровень модели и обучения, Средний уровень (MLOps? Оптимизация?), B2B? В2С?

Какова их основная компетенция? Ров данных, рабочий процесс или взаимодействие с пользователем?

Есть ли у них стратегия блокировки для удержания своих пользователей? (UX-арбитраж НЕ является основной компетенцией.)

Люди

Обладает ли команда ключевыми компетенциями в предметной области и машинном обучении?

💡 В команду должны входить специалисты по машинному обучению И управленческая команда, чтобы превратить технологию в прибыльный бизнес.

Балансирует ли команда между академическим и бизнес-развитием?

💡 В некоторых случаях приемлема академическая команда (например, исследования в области фармацевтики для разработки новых лекарств с использованием машинного обучения), а в других случаях — более бизнес-ориентированная команда (например, создание сайта социальной сети с использованием функций НЛП / машинного обучения). ).

Этика

Собираются ли данные этическим и законным способом?

💡 example Незаконный сбор медицинских данных НЕЛЬЗЯ.

Являются ли сами данные законными?

Являются ли данные объективными?

💡 Изучите данные стартапа, чтобы определить, включают ли они все необходимые этнические принадлежности, пол, возраст, политические взгляды и т. д. Проверьте, не приводят ли они к предвзятым ответам, задавая сложные вопросы.

Пример

LLaMA by Meta (блог, карточка модели на github)

  • говорит, что они с открытым исходным кодом, некоммерческие
  • ориентируется на конкретных пользователей — исследователей — делая свою модель меньше, но обучая ее на большем количестве токенов (фрагментов слов), ее легче переобучить и настроить для конкретных потенциальных вариантов использования продукта.
  • представляет собой авторегрессивную языковую модель, основанную на архитектуре преобразователя. Модель бывает разных типоразмеров: параметры 7Б, 13Б, 33Б и 65Б.
  • требует гораздо меньше вычислительной мощности — меньше энергопотребление
  • устранить риски предвзятости, токсичных комментариев и галлюцинаций в больших языковых моделях.