Биоинформатика № 21: Прогнозирование экспрессии генов миелодиспластических синдромов с помощью машинного обучения…

Из предыдущей статьи я рассказал о процедуре прогнозирования экспрессии генов, которую вы можете адаптировать в своих собственных исследованиях. Однако, когда вы видите результат, оценка прогноза в тестовом наборе ниже, чем в обучающем наборе. Теперь следующий вопрос: Как сделать эту модель линейной регрессии лучше? Ответ: Да, конечно, есть несколько способов улучшить эту модель.

Вот что я узнаю из своего первого проекта по машинному обучению:

Правильно выберите образец: в этом проекте я выбираю всех пациентов, либо нормальных, либо пациентов с миелодиспластическим синдромом. Интересно, что, похоже, нам все еще нужно разделить пациентов на подгруппы, потому что в исходном исследовании они также подразделяли пациентов с миелодиспластическим синдромом (МДС) на 3 категории. Этими категориями пациентов с миелодиспластическими синдромами являются рефрактерная цитопения с многолинейной дисплазией (RCMD), рефрактерная анемия с избытком бластов типа 1 (RAEB-1) и рефрактерная анемия с избытком бластов типа 2 (RAEB-2) (Ким , и др., 2015 г.). Из анализа машинного обучения мы не можем объединить их всех в одну категорию MDS, потому что они имеют разные характеристики.
Правильно выберите значимые гены: в этой части мы проанализировали только 20 наиболее значимых генов. Причина, по которой я выбираю только 20 наиболее значимых генов, заключается в том, что у меня ограниченная вычислительная мощность, поэтому я боюсь, что это плохо скажется на моем компьютере, если я форсирую все значимые дифференциально-экспрессированные гены в данных этого микрочипа (около 4000 генов являются значимыми с p-значением ‹ 0,05). Кроме того, возвращаясь к проблеме номер 1, мое сравнение генов дифференциальной экспрессии должно быть разделено на нормальное и RCMD, нормальное и RAEB-1 и нормальное против RAEB-2, чтобы получить лучший результат.
Добавьте в модель больше образцов . Еще один способ улучшить эту модель машинного обучения — добавить больше образцов. Возможно, 20 образцов недостаточно для обучения этой модели.
Регуляризация: регуляризация также является еще одним методом, позволяющим улучшить предсказание этой модели. В статье о машинном обучении на прошлой неделе наш результат показал, что у модели была лучшая оценка прогноза, но, к сожалению, тестовая оценка была лучше, чем оценка обучения. Ситуация тестовый балл › тренировочный балл не имеет смысла, и проблема не в регуляризации, а, возможно, в вопросе отбора выборки. С другой стороны, существует множество методов регуляризации, которые вы можете попробовать. Вы можете увидеть некоторые методы регуляризации, которые я пробовал, на моем github: https://github.com/michaelanekson/gene-expression-prediction-project.

В целом, это все мои оценки моего первого проекта по биоинформатике ML. Единственный способ стать лучше в машинном обучении — просто делать больше проектов и учиться на своих ошибках из прошлого. Это все, что я могу сказать в статье на этой неделе.

Биоинформатика № 21: Прогнозирование экспрессии генов миелодиспластических синдромов с помощью машинного обучения…

Рекомендации

Вопросы по теме