Изкуственият интелект ще е обхванал целия Интернет до няколко години

Учените предупреждават, че до 2026-а година чатботовете и други AI системи, които се захранват от текстови данни в интернет, биха могли да изчерпат всички публично достъпни знания онлайн. Модели като известния ChatGPT, базиран на архитектурата GPT-4, и Claude 3 Opus, стават все по-умни, благодарение на трилионите думи, достъпни в мрежата. Прогнозите, обаче, са тревожни – очаква се тези модели да изчерпат наличните данни в периода между 2026-а и 2032-а година. Това представлява сериозно предизвикателство за технологичните компании, които за да продължат да развиват своите AI инструменти, ще трябва да намерят нови източници на информация.

Опциите пред тях не изглеждат особено обнадеждаващи. Един вариант е създаването на синтетични данни – изкуствено генерирани текстове, имитиращи реалния свят. Другият вариант е използването на по-нискокачествени източници, което носи риска от неточности. Най-тревожният сценарий включва достъпа до лични данни, съхранявани в имейли и съобщения. Резултатите от изследването бяха публикувани на 4 юни в електронния архив arXiv.

Ако чатботовете консумират всички налични данни и не се намери начин за повишаване на тяхната ефективност, се очаква да видим забавяне в развитието на тази област, споделя Пабло Вилялобос от Live Science. Подобренията в моделите ще стават все по-бавни и ще зависят само от случайни открития в алгоритмите и естествения растеж на новите данни в мрежата.

Данните са основният ресурс за развитието на AI, позволявайки на изкуствения интелект да извлича все по-сложни модели, които се превръщат в основа за неговите невронни мрежи. Например, ChatGPT е обучен с около 570 гигабайта текстови данни, което се равнява на приблизително 300 милиарда думи. Този огромен ресурс включва книги, онлайн статии, информация от Wikipedia и други интернет източници.

Недостатъчните или некачествени данни могат да доведат до грешки в резултатите, както е видно от случая с Gemini AI на Google, който даваше съвети на хората да добавят лепило към пицата си или да ядат камъни, поради базирането на отговорите му на публикации в Reddit и статии от сатиричния сайт The Onion.

Изследователите използват индекса на Google, за да оценят колко текст има онлайн, като към момента има около 250 милиарда уеб страници, всяка съдържаща средно 7000 байта текст. След анализ на интернет трафика и потребителската активност, те са направили прогноза за бъдещия растеж на тези данни.