Діджитал

Штучний інтелект майже всього навчився: брак даних зіграє злий жарт, — учені

Пилип Бойко 20 листопада 2023 в 17:14

Фото: Getty Images | Уже 2026 року ШІ вже не буде чого навчати — якісні дані закінчаться

Експерти ставлять собі запитання, як моделі ШІ розвиватимуться в майбутньому, коли вже нізвідки буде брати нові тексти або зображення. Кілька варіантів вони вже придумали.

Штучному інтелекту буде нічого навчатися через брак даних, якщо до 2026 року людство збереже ритм і методику тренувань великих мовних моделей (LLM), що сповільнить або навіть змінить розвиток ШІ, вважають учені. Про це пише портал The Conversation.

У своїй опублікованій роботі вони вказують, що, наприклад, ChatGPT навчався на 570 гігабайтах текстових даних, або близько 300 мільярдах слів. Аналогічно алгоритм стабільної дифузії (який лежить в основі багатьох застосунків для створення зображень штучного інтелекту, як-от DALL-E, Lensa та Midjourney) було навчено на наборі даних LIAON-5B, що складається з 5,8 мільярда пар "зображення-текст". Якщо алгоритм навчений на недостатньому обсязі даних, то він видаватиме неточні або неякісні результати.

Фахівці так само особливо зазначають, що для розвитку LLM критичне значення має і якість контенту, на якому навчаються великі мовні моделі. У цьому аспекті для тренувань дуже слабо підходять соцмережі, оскільки якість інформації в них часто є маніпулятивною, що призведе до неправдивих результатів від ШІ. Текст, узятий із платформ соціальних мереж, може бути упередженим або може містити дезінформацію чи незаконний контент, який може бути відтворений моделлю.

За даними вчених, зараз розробники ШІ шукають високоякісний контент, такий як текст із книг, онлайн-статей, наукових робіт, Вікіпедії та певний відфільтрований вебконтент. Наприклад, Google Assistant був навчений на 11 000 любовних романах, узятих із сайту самостійної публікації Smashwords, щоб зробити його більш розмовним.

Водночас дослідники пророкують, що в нас закінчаться високоякісні текстові дані до 2026 року, якщо поточні тенденції навчання штучного інтелекту збережуться. За їхніми оцінками, низькоякісні мовні дані будуть вичерпані десь між 2030 і 2050 роками, а низькоякісні зображення — між 2030 і 2060 роками.

Утім, ситуація може бути не такою поганою, як здається. Є багато невідомого про те, як моделі ШІ розвиватимуться в майбутньому, а також про деякі способи усунення ризику нестачі даних. Одна з можливостей для розробників ШІ — поліпшити алгоритми, щоб вони могли ефективніше використовувати вже наявні дані. Цілком імовірно, що найближчими роками вони зможуть навчати високопродуктивні системи штучного інтелекту, використовуючи менше даних і, можливо, меншу обчислювальну потужність.

Інший варіант — використовувати ШІ для створення синтетичних даних для навчання систем. Іншими словами, розробники можуть просто генерувати необхідні їм дані, підібрані відповідно до їхньої конкретної моделі ШІ. Кілька проєктів уже використовують синтетичний контент, який часто отримують із сервісів генерації даних, таких як Mostly AI. У майбутньому це стане поширенішим явищем, вважають дослідники.

Раніше Фокус повідомляв, що Німеччина, Франція та Італія досягли угоди про регулювання ШІ. За словами міністра цифрових технологій Німеччини Фолькера Віссінга, потрібно регулювати застосунки, а не технології, якщо Європа хоче грати у вищій світовій лізі штучного інтелекту.