Искусственный интеллект почти всему научился: нехватка данных сыграет злую шутку, — ученые
Эксперты задаются вопросом, как модели ИИ будут развиваться в будущем, когда уже неоткуда будет брать новые тексты или изображения. Несколько вариантов они уже придумали.
Искусственному интеллекту будет нечему обучаться из-за нехватки данных если к 2026 году человечество сохранит ритм и методику тренировок больших языковых моделей (LLM), что замедлит или даже изменит развитие ИИ, считают ученые. Об этом пишет портал The Conversation.
В своей опубликованной работе они указывают, что, например, ChatGPT обучался на 570 гигабайтах текстовых данных, или около 300 миллиардов слов. Аналогичным образом, алгоритм стабильной диффузии (который лежит в основе многих приложений для создания изображений искусственного интеллекта, таких как DALL-E, Lensa и Midjourney) был обучен на наборе данных LIAON-5B, состоящем из 5,8 миллиарда пар "изображение-текст". Если алгоритм обучен на недостаточном объеме данных, то он будет выдавать неточные или некачественные результаты.
Специалисты так же особо отмечают, что для развития LLM критическое значение имеет и качество контента, на котором обучаются большие языковые модели. В этом аспекте для тренировок очень слабо подходят соцсети, поскольку качество информации в них часто является манипулятивным, что приведет к неправдивым результатам от ИИ. Текст, взятый с платформ социальных сетей, может быть предвзятым или может содержать дезинформацию или незаконный контент, который может быть воспроизведен моделью.
По данным ученых, сейчас разработчики ИИ ищут высококачественный контент, такой как текст из книг, онлайн-статей, научных работ, Википедии и определенный отфильтрованный веб-контент. Например, Google Assistant был обучен на 11 000 любовных романах, взятых с сайта самостоятельной публикации Smashwords, чтобы сделать его более разговорным.
В то же время исследователи предсказывают, что у нас закончатся высококачественные текстовые данные до 2026 года, если текущие тенденции обучения искусственному интеллекту сохранятся. По их оценкам, низкокачественные языковые данные будут исчерпаны где-то между 2030 и 2050 годами, а низкокачественные изображения — между 2030 и 2060 годами.
Впрочем, ситуация может быть не такой плохой, как кажется. Есть много неизвестного о том, как модели ИИ будут развиваться в будущем, а также о некоторых способах устранения риска нехватки данных. Одна из возможностей для разработчиков ИИ — улучшить алгоритмы, чтобы они могли более эффективно использовать уже имеющиеся данные. Вполне вероятно, что в ближайшие годы они смогут обучать высокопроизводительные системы искусственного интеллекта, используя меньше данных и, возможно, меньшую вычислительную мощность.
Другой вариант — использовать ИИ для создания синтетических данных для обучения систем. Другими словами, разработчики могут просто генерировать необходимые им данные, подобранные в соответствии с их конкретной моделью ИИ. Несколько проектов уже используют синтетический контент, часто получаемый из сервисов генерации данных, таких как Mostly AI. В будущем это станет более распространенным явлением, считают исследователи.
Ранее Фокус сообщал, что Германия, Франция и Италия достигли соглашения о регулировании ИИ. По словам министра цифровых технологий Германии Фолькера Виссинга, нужно регулировать приложения, а не технологии, если Европа хочет играть в высшей мировой лиге искусственного интеллекта.