Розумний, але невихований: Microsoft і NVIDIA представили найбільший в світі мовний ШІ

ІІ
Фото: Pixabay

Система виявилася втричі потужніша, ніж попередники. Вона вміє писати текст, подібно до людини, але використовує образливу лексику.

Related video

Компанії Microsoft і NVIDIA розробили найбільшу в світі мовну модель штучного інтелекту Megatron-Turing Natural Language Generation. Про це Microsoft повідомила на офіційному сайті.

За словами розробників, MT-NLG має 530 мільярдів параметрів, що втричі перевершує наявну могутнішу монолітну трансформаторну мовну модель. Алгоритм складається зі 105 "шарів" та обіцяє високу точність в таких завданнях, як:

  • розуміння тексту;
  • визначення змісту слів із кількома значеннями;
  • завершення тексту за змістом;
  • подання логічних висновків;
  • написання висновків у стилі, схожому на людський.

Моделі штучного інтелекту для перетворення мови в останні роки стрімко розвиваються, збільшують масштаби обчислень і стають набагато "розумнішими" в обробці тексту. Вони добре справляються зі створенням діалогів, перекладом, пошуком за змістом та автозаповненням завдяки постійному збільшенню параметрів. Однак навчання таких моделей є складним завданням через те, що вже неможливо вмістити параметри навіть в найбільш об'ємну апаратну пам'ять графічного процесора (GPU). До того ж, велика кількість операцій збільшує час навчання.

MT-NLG вдалося навчити завдяки численним інноваціям та досягненням у сфері ШІ. NVIDIA та Microsoft об'єднали сучасну інфраструктуру навчання з прискоренням на GPU, а також передове програмне забезпечення. Зрештою їм вдалося створити систему із сотнями мільярдів опцій, підвищити ефективність і стабільність оптимізації.

Для навчання використовували суперкомп'ютер NVIDIA Selene з 560 серверами DGX A100, кожен з яких оснащений вісьмома графічними процесорами A100 по 80 ГБ. Microsoft же привернула хмарну інфраструктуру Microsoft Azure NDv4. Бібліотека DeepSpeed на коді PyTorch дозволила розробникам всього за місяць завантажити в ШІ понад 1,5 ТБ даних із різних баз, таких як Wikipedia, PudMed, зокрема й зразки художньої літератури.

"MT-NLG — це приклад того, що можливо, коли суперкомп'ютери, такі як NVIDIA Selene або Microsoft Azure NDv4, використовуються з проривним програмним забезпеченням Megatron-LM та DeepSpeed ​​для навчання моделей штучного інтелекту великою мовою. Якість і результати, які ми отримали сьогодні, — великий крок вперед на шляху до розкриття всіх можливостей ШІ природною мовою", — зазначила Microsoft.

Розробники стверджують, що мовна модель добре справляється з покладеними на неї завданнями, однак може використовувати стереотипи й упередження, які містяться в завантажених даних. Іншими словами, в створеному тексті може з'явитися агресивна лексика або образливі вирази, взяті із загальнодоступних публікацій. Microsoft і NVIDIA намагаються це виправити.

Раніше ШІ навчився точно прогнозувати погоду краще метеорологів. Новий машинний алгоритм передбачає опади протягом найближчих півтори години.