GPT-4 изучает логику GPT-2 в исследовании OpenAI: создатели искусственного интеллекта не знают, как он работает

Alisa · 14 Май 2023

Screenshot 2023-05-14 at 19-52-21 GPT-4 изучает логику GPT-2 в исследовании OpenAI создатели и...png

В то время как языковые модели искусственного интеллекта покоряют сферу технологий, исследователи ИИ слабо представляют их работу под капотом. OpenAI прямо признается: "Языковые модели стали более функциональными и широко распространенными, но мы не понимаем, как они работают".

Компания опубликовала исследование, в котором подробно описывается метод использования языковой модели GPT-4 для объяснения поведения нейронов более старой GPT-2. Задача – добиться интерпретируемости, объяснить, почему нейросети делают то, что делают и создать надежные средства контроля процесса. Забегая вперед, пока это не очень удается, но перспективы возрастут с появлением более совершенных моделей.

GPT-4 Изображение роботов, заглядывающих внутрь искусственного мозга Наличие интерпретируемой модели ИИ помогло бы достигнуть более глобальной цели, которую называют «согласованием ИИ» – гарантии, что системы ведут себя так, как задуманно и отражают в работе человеческие ценности. Пока никому не понятно, как конкретно отдельные элементы нейронной сети (нейроны) взаимодействуют для получения исходных данных.

Эта проблема получила название "черного ящика". Иными словами, не ясно, каким образом заданный вопрос превращается в ответ. Пытаясь заглянуть внутрь черного ящика, OpenAI использовала GPT-4 для создания и оценки естественно-языковых объяснений поведения нейронов в гораздо менее сложной модели GPT-2. Автоматизируя процесс интерпретации, OpenAI стремится преодолеть ограничения ручной проверки человеком, которая не может охватить системы с миллиардами возможных параметров. Техника OpenAI имеет цель объяснить, какие шаблоны текста вызывают активацию нейрона.

Метод состоит из трех шагов:
Объясните активацию нейрона с помощью GPT-4
Смоделировать активацию нейронов
Сравнить полученные модели с реальными активациями

Необходимо уточнить терминологию:
Нейрон – минимальная единица нейронной сети.
Цепь или схема (circuit) – группа нейронов, работающих вместе и выдающих коллективный результат

Председатель внимания (attention head) – действие, направляющее «внимание» языковой модели на определенные слова либо части речи для отбора нужной информации GPT-4 выявляет в модели конкретные нейроны, цепи, головы внимания и создает удобочитаемое объяснение роли этих компонентов. Она также генерирует оценку объяснения, которую OpenAI называет "мерой способности языковой модели сжимать и реконструировать активацию нейронов с использованием естественного языка". Исследователи надеются, что подобная количественная оценка позволит добиться измеримого устойчивого прогресса на пути к пониманию работы нейросетей. Пока результаты не впечатляют.

В исследовании OpenAI сравнивала работу GPT-4 с работой человека, выполнявшего те же деяния. Оба исполнителя показали плохую в абсолютном выражении оценку объяснения, что означает крайнюю затруднительность интерпретации поведения нейронов. Одна из причин этого – полисемантичность нейронов: один нейрон может выдавать несколько значений или быть связанным с несколькими понятиями.

Другая звучит как отрывок из научно-фантастического романа, герои которого пытаются понять логику инопланетян – процитируем статью:

«Кроме того, языковые модели могут формировать чуждые понятия, для которых у людей нет слов. Это может происходить из-за того, что они «заботятся» о разных вещах: например, о статистических конструкциях, полезных для задач прогнозирования следующей лексемы, или обнаруживают естественные абстракции, которые людям еще предстоит открыть: например, некоторое семейство аналогий в несопоставимых областях. »

Также процесс объяснения сдерживает ограничение вычислительной мощности и необходимость предоставлять объяснения в удобной краткой форме на естественном языке. Все же исследователи OpenAI надеются на прогресс, к которому приведет совершенствование языковых моделей и рост мощностей. Компания подробно изложила свой метод исследования и выложила на GitHub код системы автоматической интерпретации, нейроны GPT-2 XL и наборы данных объяснений.

GPT-4 изучает логику GPT-2 в исследовании OpenAI: создатели искусственного интеллекта не знают, как он работает

Alisa

Модератор

Похожие темы