Американські науковці з’ясували, що великі мовні моделі штучного інтелекту (LLM) можуть зазнавати когнітивного занепаду, якщо їх навчати на низькоякісному контенті — зокрема, мемах, клікбейті та поверхневих публікаціях із соцмереж.
Про це повідомляє DTF Magazine.
Дослідники протестували чотири моделі — Llama3 і три версії Qwen, «підживлюючи» їх дописами з платформи Х (колишній Twitter). Набір даних містив популярний, але інформаційно бідний контент — клікбейт, повтори мемів, провокативні коментарі й згенеровані списки.
Після такого донавчання моделі показали помітне зниження здатності до логічного міркування, погіршення розуміння складних контекстів, ослаблення етичних принципів і навіть прояви «небажаних соціальних рис» — нарцисизму чи психопатії. Основною проблемою дослідники назвали «пропуск мисленнєвих кроків», коли ШІ перестає будувати послідовні ланцюги логіки.
Хоча подальше «очищене» донавчання частково відновлювало здібності моделей, повністю повернути попередній рівень когнітивної складності не вдалося.
Автори роботи — Цзюнь Юань Хонг та Атлас Ван — наголосили, що якість даних безпосередньо впливає не лише на стиль, а й на «мислення» ШІ:
«Коли моделі споживають низькоякісний контент, вони не просто говорять гірше — вони гірше думають», — зазначили дослідники в коментарі для Forbes.
Науковці підкреслюють, що результати експерименту свідчать про необхідність ретельнішого контролю за джерелами даних і методами безперервного навчання моделей штучного інтелекту.