Система виявилася втричі потужніша, ніж попередники. Вона вміє писати текст, подібно до людини, але використовує образливу лексику.
Компанії Microsoft і NVIDIA розробили найбільшу в світі мовну модель штучного інтелекту Megatron-Turing Natural Language Generation. Про це Microsoft повідомила на офіційному сайті.
За словами розробників, MT-NLG має 530 мільярдів параметрів, що втричі перевершує наявну могутнішу монолітну трансформаторну мовну модель. Алгоритм складається зі 105 "шарів" та обіцяє високу точність в таких завданнях, як:
- розуміння тексту;
- визначення змісту слів із кількома значеннями;
- завершення тексту за змістом;
- подання логічних висновків;
- написання висновків у стилі, схожому на людський.
Моделі штучного інтелекту для перетворення мови в останні роки стрімко розвиваються, збільшують масштаби обчислень і стають набагато "розумнішими" в обробці тексту. Вони добре справляються зі створенням діалогів, перекладом, пошуком за змістом та автозаповненням завдяки постійному збільшенню параметрів. Однак навчання таких моделей є складним завданням через те, що вже неможливо вмістити параметри навіть в найбільш об'ємну апаратну пам'ять графічного процесора (GPU). До того ж, велика кількість операцій збільшує час навчання.
MT-NLG вдалося навчити завдяки численним інноваціям та досягненням у сфері ШІ. NVIDIA та Microsoft об'єднали сучасну інфраструктуру навчання з прискоренням на GPU, а також передове програмне забезпечення. Зрештою їм вдалося створити систему із сотнями мільярдів опцій, підвищити ефективність і стабільність оптимізації.
Для навчання використовували суперкомп'ютер NVIDIA Selene з 560 серверами DGX A100, кожен з яких оснащений вісьмома графічними процесорами A100 по 80 ГБ. Microsoft же привернула хмарну інфраструктуру Microsoft Azure NDv4. Бібліотека DeepSpeed на коді PyTorch дозволила розробникам всього за місяць завантажити в ШІ понад 1,5 ТБ даних із різних баз, таких як Wikipedia, PudMed, зокрема й зразки художньої літератури.
"MT-NLG — це приклад того, що можливо, коли суперкомп'ютери, такі як NVIDIA Selene або Microsoft Azure NDv4, використовуються з проривним програмним забезпеченням Megatron-LM та DeepSpeed для навчання моделей штучного інтелекту великою мовою. Якість і результати, які ми отримали сьогодні, — великий крок вперед на шляху до розкриття всіх можливостей ШІ природною мовою", — зазначила Microsoft.
Розробники стверджують, що мовна модель добре справляється з покладеними на неї завданнями, однак може використовувати стереотипи й упередження, які містяться в завантажених даних. Іншими словами, в створеному тексті може з'явитися агресивна лексика або образливі вирази, взяті із загальнодоступних публікацій. Microsoft і NVIDIA намагаються це виправити.
Раніше ШІ навчився точно прогнозувати погоду краще метеорологів. Новий машинний алгоритм передбачає опади протягом найближчих півтори години.