Публикации по теме 'model-scaling'


Google LongT5 на базе трансформатора достигает прироста производительности за счет масштабирования как входной длины, так и модели…
Исследования показали, что увеличение входной длины или размера модели может повысить производительность нейронной модели на основе преобразователя. В новой статье исследовательская группа Google исследует эффекты одновременного масштабирования как входной длины, так и размера модели. В предложенной командой архитектуре трансформатора LongT5 используется новая…