Google е позволила на OpenAI да транскрибира милиони
Според нов доклад, в опит да осигурят висококачествени данни, за да обучат своите AI модели, AI компании като OpenAI, Google и Meta са прибягнали до сенчести тактики. В доклад на New York Times се посочва, че OpenAI е преписал над един милион часа видеоклипове в YouTube, за да потупа данни, за да обучи най-модерния си голям езиков модел (LLM), GPT-4.
Съобщава се, че OpenAI е разработил модела за транскрипция на аудио Whisper, който помогна на компанията да извлича данни от видеоклипове в YouTube. NY Times съобщава, че OpenAI са знаели, че този метод може да бъде подложен на проверка, но са продължили с него, защото са вярвали, че това е честна употреба. Интересното е, че Google, която притежава YouTube, също е участвала в практикуването на същото за своите AI модели, като по този начин нарушава авторските права на своя създател.
Материалът на NY Times е в съответствие с доклада на The Information, където беше подчертано, че OpenAI твърди, че е премахнал данни от видеоклипове и подкасти в YouTube, за да обучи две от своите AI системи. Докладът също така предполага, че президентът на OpenAI Грег Брокман също е бил в екипа.
