есть вероятность, что быстрое развитие нейронных сетей вскоре замедлится [ФОТО] / news2.ru

Согласно отчету Журнал “Уолл Стриттаким компаниям, как OpenAI или Google, требуются огромные объемы данных для обучения и улучшения своих больших языковых моделей (LLM), но проблема в том, что в Интернете просто недостаточно хороших данных.

as6yz2l22k0uhLaYIQmI81QeteGVY

Авторы материала The Wall Street Journal ссылаются на высказывания специалиста по искусственному интеллекту Пабло Вильялобоса из Исследовательского института Epoch. По его словам, языковая модель GPT-4 была обучена на 12 триллионах токенов данных, и если следовать законам масштабирования Chinchilla, следующая версия потребует около 60–100 триллионов токенов. Однако в общественном достоянии отсутствуют как минимум от 10 до 20 триллионов токенов текстовых и графических данных соответствующего качества. Пару лет назад, кстати, Вильялобос заявил, что к середине 2024 года с вероятностью 50% нейросетям уже не хватит данных для дальнейшего обучения. Тогда он предсказал, что к 2026 году эта вероятность составит 90%.

В исследовании говорится, что большинство данных, доступных в Интернете, просто непригодны для обучения ИИ, поскольку содержат бессвязный текст или не содержат информации, новой для нейронных сетей. Проблему усугубляет тот факт, что основные платформы, включая новостные агентства и социальные сети, блокируют доступ к своим данным и не позволяют таким компаниям, как OpenAI, использовать их.

as6yuWQz18z2uB5C68ZVQyJNr2PhrZ

По словам генерального директора OpenAI Сэма Альтмана, они разрабатывают новые способы обучения нейронных сетей. Есть информация, что компания рассматривает возможность создания системы оценки стоимости данных для оплаты платформ за них. Согласно сообщению The Wall Street Journal, Google рассматривает аналогичный подход. Тем временем OpenAI намерена использовать инструмент распознавания речи Whisper для «извлечения» информации из аудиозаписей и видео, находящихся в свободном доступе в Интернете.

Внутри OpenAI рассматривает другой способ решения проблемы нехватки данных — генерацию высококачественных синтетических данных, которые можно использовать для дальнейшего обучения нейронных сетей.

XBNFNM   Полиция сообщает, что на юго-западе Филадельфии вооруженный человек убил четырех человек.
Добавлен звук Суаре 4 часа 35 минут назад

Source