Nvidia установила 16 рекордов производительности в ИИ-вычислениях в бенчмарках MLPerf

, Текст: Владимир Бахур

Nvidia обеспечивает самую высокую в мире производительность в обучении ИИ-моделей среди всех коммерчески доступных продуктов, согласно представленным данным тестов MLPerf.

Графический процессор A100 Tensor Core продемонстрировал самую высокую производительность на ускоритель во всех восьми бенчмарках MLPerf. Система DGX SuperPOD, массивный кластер из систем DGX A100, соединенных коммутаторами HDR InfiniBand, также подняла планки производительности на новые высоты в восьми случаях. Реальный выигрыш получили покупатели, которые направили этот потенциал на повышение эффективности и экономичности своего бизнеса с помощью ИИ.

Это третий подряд и самый удачный результат Nvidia в обучающих тестах от компании MLPerf, созданной в мае 2018 года. Nvidia установила шесть рекордов в первых обучающих тестах MLPerf в декабре 2018 года и восемь в июле 2019 года.

Nvidia установила рекорды в самой ценной для заказчиков категории: коммерчески доступные продукты. Тесты были проведены на новейшей архитектуре Nvidia Ampere, а также на архитектуре Volta.

Nvidia стала единственной компанией, которая протестировала коммерчески доступные продукты во всех тестах. В большинстве остальных случаев использовалась категория preview для продуктов, которые могут быть недоступны несколько месяцев, или категория research для продуктов, появление которых в скором времени не ожидается.

Помимо новых рекордов в скорости первый процессор на базе архитектуры Nvidia Ampere — A100 — вышел на рынок быстрее графических процессоров предыдущих поколений Nvidia. Вначале он лег в основу систем Nvidia DGX третьего поколения и всего через шесть недель появился облачном сервисе Google.

Удовлетворить высокий спрос на A100 также помогают ведущие облачные провайдеры, такие, как Amazon Web Services, Baidu Cloud, Microsoft Azure и Tencent Cloud, и десятки крупных сборщиков серверов, включая Dell Technologies, Hewlett Packard Enterprise, Inspur и Supermicro.

Пользователи во всем мире применяют A100 для решения самых сложных задач ИИ, анализа данных и научных вычислений.

Некоторые процессоры легли в основу рекомендательных систем нового поколения и диалоговых ИИ-приложений, другие используются в поиске вакцины от COVID-19. Во всех случаях отмечается самый высокий прирост производительности среди всех восьми поколений GPU Nvidia.

Последние результаты показывают, что Nvidia уделяет особое внимание совершенствованию ИИ-платформы, включающей процессоры, связь, программное обеспечение и системы. Так, тесты показывают, что при эквивалентной пропускной способности система DGX A100 до 4 раз быстрее системы на базе графических процессоров V100 в первом цикле обучающих тестов MLPerf. В то же время изначальная система DGX-1 на базе Nvidia V100 показывает прирост производительности до 2 раз благодаря программным оптимизациям.

Такой прирост был получен менее чем за два года благодаря инновациям в ИИ-платформе. Сегодняшние GPU Nvidia A100, вместе с программными обновлениями библиотек CUDA-X, используются в разрастающихся кластерах, построенных на коммутаторах Mellanox HDR 200Gb/s InfiniBand.

Решения HDR InfiniBand обеспечивают максимально низкие задержки и высокую пропускную способность, а также поддерживают умные движки ускорения вычислений глубокого обучения по технологии SHARP (Scalable Hierarchical Aggregation and Reduction Protocol).

Бенчмарки MLPerf — с поддержкой таких организаций, как Amazon, Baidu, Facebook, Google, Harvard, Intel, Microsoft и Stanford — постоянно совершенствуются, чтобы соответствовать современному уровню развития ИИ.

В новые бенчмарки вошли два новых теста, а один претерпел кардинальные изменения – во всех них Nvidia показала превосходные результаты. Один измеряет производительность в рекомендательных системах – это очень популярная ИИ-задача; другой тестирует диалоговый ИИ с помощью BERT, одной из самых сложных популярных моделей нейросети. Наконец, в тесте обучения с подкреплением применялась программа Mini-go с полноразмерной доской Го 19×19, и он стал самым сложным тестом в этом цикле, включающим разнообразные операции – от геймплея до обучения.

Компании уже снимают сливки в таких стратегических ИИ-приложениях. Alibaba установила рекорд продаж в 38 млрд долларов в День холостяков в ноябре, когда графические процессоры Nvidia помогли увеличить число запросов в секунду в рекомендательных системах более чем в 100 раз по сравнению с CPU. Так, диалоговый ИИ становится главной темой обсуждений, способствующей развитию бизнеса в разных областях — от финансов до здравоохранения.

Nvidia обеспечивает как производительность, необходимую для выполнения этих сложных задач, так и простоту применения.

В мае Nvidia анонсировала два фреймворка — Jarvis для диалогового ИИ и Merlin для рекомендательных систем. Merlin включает фреймворк HugeCTR для обучения, который позволил показать высокие результаты в MLPerf. Они входят в расширяющееся семейство фреймворков для таких рынков, как автомобилестроение (Nvidia DRIVE), здравоохранение (Clara), робототехника (Isaac) и розница/умные города (Metropolis).

Nvidia проводила тесты MLPerf на внутреннем кластере Selene, основанном на референсной архитектуре DGX SuperPOD для крупномасштабных GPU-кластеров, которые можно развернуть за несколько недель. Эта архитектура позволяет применять принципы проектирования и лучшие практики в области DGX POD для решения самых сложных ИИ-задач.

Кластер Selene недавно дебютировал в рейтинге TOP500 как самая быстрая промышленная система в США с производительностью в ИИ свыше одного экзафлопса. Также он занимает вторую строчку в рейтинге самых энергоэффективных систем Green500.

Клиенты уже применяют эти референсные архитектуры для создания собственных систем DGX POD и DGX SuperPOD. Среди них — HiPerGator, самый быстрый в академических кругах США ИИ-суперкомпьютер, который ляжет в основу межпредметной ИИ-инициативы Университета Флориды.

Тем временем, крупнейший супервычислительный центр — Аргоннская национальная лаборатория — использует DGX A100 для поиска лекарств от COVID-19. Она стала первой из супервычислительных центров, взявших на вооружение GPU A100.

Системы DGX SuperPOD уже показывают отменные результаты в таких компаниях, как Continental в автопроме, Lockheed Martin в аэрокосмической индустрии и Microsoft в облачных сервисах. Все эти системы работают на ура частично благодаря обширной экосистеме, поддерживающей GPU и системы DGX Nvidia.

Из девяти компаний, представивших результаты, семь представили системы с GPU Nvidia, включая поставщиков облачных сервисов (Alibaba Cloud, Google Cloud, Tencent Cloud) и сборщиков серверов (Dell, Fujitsu и Inspur), что отражает мощь экосистемы Nvidia.

Многие партнеры в представленных системах использовали контейнеры из хаба Nvidia NGC вместе с публично доступными фреймворками. Партнеры MLPerf входят в экосистему, включающую два десятка поставщиков облачных сервисов и OEM-компаний с продуктами или планами на онлайн-инстансы, серверы и PCIe-карты с графическими процессорами Nvidia A100.

Многие из приложений, которые Nvidia и партнеры компании использовали для тестов MLPerf, уже доступны для клиентов в NGC. NGC хранит GPU-оптимизированные контейнеры, программные скрипты, предварительно обученные модели и SDK. Они позволяют разработчикам и аналитикам ускорять свои рабочие ИИ-конвейеры в популярных фреймворках, таких как TensorFlow и PyTorch.

Организации берут на вооружение контейнеры, чтобы быстрее получить значимые результаты в бизнесе. В конце концов, эффективность в рабочих процессах — это самый показательный бенчмарк.