Доброго времени суток, «Хабр»!Устал я делать разного рода сравнения и составлять топы среди недавно вышедших моделей. Восемь месяцев назад вышла моя статья, расДоброго времени суток, «Хабр»!Устал я делать разного рода сравнения и составлять топы среди недавно вышедших моделей. Восемь месяцев назад вышла моя статья, рас

Фундаментальный разбор: эволюция архитектур нейросетей от перцептрона до трансформера

Доброго времени суток, «Хабр»!

Устал я делать разного рода сравнения и составлять топы среди недавно вышедших моделей.

Восемь месяцев назад вышла моя статья, рассказывающая о пути, который нейросети проделали от цепей Маркова до современных языковых моделей. Размышляя над старыми материалами, я подумал: а почему бы снова не углубиться в историю и не рассмотреть развитие архитектур моделей?

Присаживайтесь поудобнее, а я начинаю свой рассказ, в котором пройду путь от перцептрона до современного трансформера.

63f27d6d6ecc3c2fe9fd76efecca969c.png

Нейроны

Началось все, конечно же, с исследования человеческого мозга. Он содержит около 86 миллиардов нейронов с триллионами синаптических связей между ними. Наш мозг представляет собой невероятно сложную систему обработки информации. Именно попытка смоделировать принцип его работы и привела к созданию нейросетей.

Биологический нейрон имеет дендриты (входы), аксон (выход) и клеточное тело, которое обрабатывает поступающие сигналы. Если суммарный сигнал на дендритах превышает определенный порог, нейрон активируется и передает импульс далее по аксону к другим нейронам. Этот принцип «все или ничего» стал отправной точкой для создания математической модели искусственного нейрона

Схема биологического нейрона
Схема биологического нейрона

Схема биологического нейрона

В 1943 году нейрофизиолог Уоррен Маккалок и математик Уолтер Питтс предложили первую модель нейрона. Их творение представляло собой логический вычислитель с множеством входов и одним выходом, выполняющим пороговую функцию активации.

Биологический компонент

Аналог

Функция

Дендриты

Входные сигналы (x1, x2, …, xn)

Получение информации

Синаптические соединения

Веса (w1, w2, …, wn)

Определение значимости входного сигнала

Клеточное тело

Сумматор и функция активации

Обработка и преобразование сигнала

Аксон

Выход нейрона

Передача результата

Порог возбуждения

Смещение

Регулирование чувствительности нейрона

Первая модель искусственного нейрона
Первая модель искусственного нейрона

Небольшое отступление

Хотите попробовать какую-то модель? Воспользуйтесь агрегатором нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.


Перцептрон Розенблатта

Следующий значительный шаг был сделан в 1957 году: американский нейрофизиолог Фрэнк Розенблатт представил миру простейшую математическую модель и схему устройства, способного воспроизводить процесс восприятия информации человеческим мозгом. Устройство получило название перцептрон.

Перцептрон принимал на вход числа, умножал их на веса, суммировал и пропускал через функцию активации, выдавая линейно разделимый ответ: да/нет, черное/белое, +/– и тому подобное. Кроме того, устройство буквально умело обучаться на примерах верных и неверных ответов, хотя и на очень примитивном уровне.

Математическое представление работы перцептрона
Математическое представление работы перцептрона

Если не опираться на представленное выше описание, то можно объяснить работу следующим образом:

На первый взгляд все выглядит несложно, поскольку так оно и есть на самом деле. Для получения нового значения весового коэффициента достаточно к предыдущему значению добавить произведение скорости обучения на разницу желаемого и фактического выходного сигнала, умноженное на соответствующий входной сигнал (значение конкретного входа зависит от веса).

К сожалению, перцептроны имели существенные ограничения. В 1969 году Марвин Минский и Сеймур Паперт доказали, что однослойный перцептрон не способен решать задачи, не являющиеся линейно-разделимыми, такие как функция XOR. Это открытие вызвало первую зиму искусственного интеллекта, существенно сократив интерес и финансирование исследований в области нейросетей.

Фактически, все типы перцептронов, предложенные Розенблаттом, сегодня относятся к категории многослойных сетей, однако после наступившей зимы интереса к искусственному интеллекту работы возобновились лишь спустя значительное время.


Многослойный перцептрон (MLP)

Только к 1986 году американский ученый Дэвид Румельхарт разработал (воссоздал) первую полноценную ИИ-архитектуру - многослойный перцептрон.

Кстати, по причине терминологической неточности Румельхарта в литературе распространилось представление о том, что все первоначальные перцептроны Розенблатта были примитивными и однослойными, и лишь Дэвид Румельхарт обосновал необходимость введения скрытых слоев.

MLP состоял из входных, скрытых и выходных слоев перцептронов, где информация двигалась строго вперед, от входа к выходу. Прорывом же стал переход от обучения по примерам к обучению с помощью алгоритма обратного распространения ошибки, который позволял автоматически настраивать веса модели.

Архитектура многослойного перцептрона
Архитектура многослойного перцептрона

К сожалению, здесь также не обошлось без минусов. Главным, пожалуй, стало отсутствие способности работать со структурированными данными, такими как изображения или длинные последовательности текста. Дело в том, что для каждого входа MLP существовало фиксированное число параметров, и перцептрон не учитывал пространственные или временные взаимосвязи между частями данных.


Рекуррентные нейронные сети

Для работы с объемами данных были придуманы рекуррентные нейронные сети (RNN), способные сохранять информацию о своих предыдущих состояниях.

Первую модель, которую можно отнести к этой архитектуре, представил в 1982 году Джон Хопфилд. Сеть Хопфилда остается самой распространенной математической моделью в нейронауке по сегодняшний день благодаря своей простоте и наглядности.

Сеть Хопфилда демонстрирует, каким образом может быть организована память в сети из ненадежных элементов. Экспериментально установлено, что даже при выходе из строя до 50% нейронов вероятность получения правильного ответа стремится к 100%.

5bb2df560ce5a217efff6a863a7d163c.png

Сеть состоит из N искусственных нейронов, аксон каждого нейрона связан с дендритами остальных нейронов, образуя обратную связь. Каждый нейрон может находиться в одном из двух состояний: возбуждение (чему соответствует состояние +1) и торможение (состояние -1). Дискретность состояния нейрона отражает нелинейный, пороговый характер его функционирования, известный в нейрофизиологии как ранее упомянутый принцип «все или ничего».

Однако RNN (включая сеть Хопфилда) страдали от проблемы исчезающего градиента, особенно при обработке длинных последовательностей.


CNN

CNN, или сверточная нейронная сеть, решила проблему работы с изображениями. CNN была представлена в 1988 году Яном Лекуном и предназначена для эффективного распознавания образов, сегодня она входит в состав технологий глубокого обучения.

Ключевая идея сверточных сетей - использование локальной связности и разделяемых весов. Вместо полного соединения каждого нейрона со всеми нейронами предыдущего слоя нейроны в сверточном слое связаны лишь с небольшой областью предыдущего слоя. К тому же одинаковые веса применяются для обработки разных областей изображения, что значительно сокращает число параметров и позволяет сети выявлять одни и те же признаки вне зависимости от их расположения на изображении.

Проще говоря, специальные фильтры (ядра) скользят по изображению и выделяют характерные особенности: края, углы и текстуры. Следующий слой пулинга снижает размерность карт признаков, сохраняя только наиболее значимую информацию.

a337b82c3f31653f596c20ecd348a9a6.png

CNN состоит из следующих компонентов:

  • сверточные слои;

  • слои пулинга;

  • полносвязные слои (для классификации информации на основе выявленных признаков);

  • слои нормализации;

  • слои дропаута (для предотвращения переобучения).

Сверточная нейронная сеть стала одной из первых успешных реализаций технологий ИИ. На ее основе появились флагманы: LeNet (1989 год), умеющая распознавать даже рукописные цифры; AlexNet (2012 год), продемонстрировала мощь глубокого обучения в компьютерном зрении; ResNet(2015 год), решившая проблему затухания градиентов в очень глубоких сетях.

Именно эта архитектура лежит в основе современных систем для распознавания лиц, медицинской диагностики по снимкам и автономного вождения.


Длинная краткосрочная память

Для решения проблемы RNN была предложена разновидность этой архитектуры. В 1997 году Зепп Хохрайтер и Юрген Шмидхубером предложили длинную краткосрочную память (LSTM).

3d74ab90f4c005b20e58c7cebc175c54.png

Сеть решает, что запомнить, а что забыть на каждом временном шаге. Это позволяет LSTM поддерживать важные зависимости на длинных последовательностях.

Длинная краткосрочная память обладала устойчивостью к исчезающему градиенту, памятью о долгосрочных зависимостях, гибкостью обработки данных и поддержкой неполных данных (выявление закономерностей и пропусков в последовательностях).

Однако здесь тоже не обошлось без недостатков. Архитектура требовала длительного обучения из-за своей внутренней сложности и большого числа параметров, соответственно расходы на ее поддержание оказывались значительными.

Проблемы возникали даже при настройке: LSTM оказалась чувствительной к гиперпараметрам, таким как количество слоев, размеру скрытого состояния и длине последовательности.


Autoencoder и VAE-архитектуры

Следующей вехой архитектуры стала разработка техники обучения без явных указаний, то есть без учителя. Эта концепция также не была новаторской, ее основные принципы сформулировал Тейво Кохонен еще в 1982 году.

Ключевую роль в обучении без учителя сыграли автоэнкодеры. Их архитектура включает две части: энкодер (сжимает данные в компактное представление) и декодер (пытается восстановить исходные данные).

7b25d90ea935bfd265817595370de0a6.png

Вариационный автоэнкодер появился позднее, в 2013 году. Его архитектура продвинулась вперед, освоив работу не с фиксированными кодами, а с распределением вероятностей. Это позволило не только сжимать данные, но и создавать абсолютно новые объекты, например, лица несуществующих людей.

379e4abd9ff31e63f96da6ba15eb4e53.png

GAN

Генеративно-состязательные нейросети (GAN) появились в 2014 году, совершив настоящий прорыв в области генеративного ИИ. Архитектура основана на идее противостояния двух нейросетей: одна создает поддельные данные, другая учится отличать их от подлинных.

В ходе такой борьбы генератор вынужден постоянно совершенствоваться до тех пор, пока его результаты не станут неотличимы от реальных

86b9275464c18069868c9c758a975673.png

Свои минусы присутствовали и тут. Нестабильность обучения, когда генератор начинал выдавать однообразные результаты, пытаясь убедить своего оппонента в качестве полученных данных.


Seq2Seq и Attention-механизм

Sequence-to-Sequence (Seq2Seq) - кульминация эволюции ИИ, впоследствии породившая всем известный Transformer (о нем мы поговорим чуть позже).

Seq2Seq появилась в 2014 году. Эта архитектура использовала две рекуррентные сети (RNN, чаще всего LSTM): первая выполняла роль энкодера, преобразуя входную последовательность в контекстный вектор, а вторая, выступающая в роли декодера, генерировала итоговую последовательность на его основе.

6d0eeb0527a5e30b6a650f46bf12d42b.png

Однако вскоре обнаружилась проблема - ограниченность контекстного вектора, плохо справляющегося с обработкой длинных предложений. Решение пришло вместе с механизмом внимания (Attention). Вместо единого конечного вектора внимание позволяло декодеру на каждом этапе выбирать наиболее значимые элементы исходной последовательности, сосредотачиваясь именно на нужных словах.

fe63cde2b4a19de3ba266a9a1ef957f6.png

Механизм работал аналогично тому, как человек переводит текст: сопоставляя слова двух языков. Таким образом было доказано, что прямая связь элементов последовательности гораздо важнее их строгого порядка следования, что фактически завершило эпоху господства RNN.


Трансформеры

Архитектуры на основе рекуррентных и сверточных нейронных сетей доминировали в задачах обработки естественного языка вплоть до 2017 года, когда команда исследователей из Google представила архитектуру Transformer. Это стало поворотным моментом в области обработки естественного языка, даже за ее пределами.

Трансформеры решили фундаментальную проблему рекуррентных сетей - невозможность параллельной обработки последовательностей из-за их природы.

Ключевой инновацией в архитектуре стал механизм самовнимания, упомянутый ранее выше. Он не только ускорил обучение, но и позволил моделям лучше улавливать долгосрочные зависимости данных.

e7bcebf1b3fc37d83c98c9de68f2f443.png

Трансформер состоит из нескольких ключевых элементов:

  • Многоголовое внимание - модель способна одновременно фокусироваться на информации из разных представлений подпространств, расширяя ее способность к обучению взаимосвязей;

  • Позиционное кодирование - добавляет к входным данным информацию о положении;

  • Нормализация слоя - стабилизирует и ускоряет обучение;

  • Остаточные соединения - помогают бороться с проблемой исчезающего градиента;

  • Полносвязные слои с ReLu - обрабатывают выходные механизма внимания.

За прошедшее время трансформеры эволюционировали в целое семейство различных архитектур. Так например BERT, выпущенная в 2018 году, имеля двунаправленное кодирование, предобучение на замаскированном языковом моделировании. Модель в основном используется для понимания естественного языка и классифицирования различных текстов.

GPT, выпущенная аналогично в 2018 году и развивающаяся по сей день. Модель имеет в себе авторегрессивное моделирование, масштабирование параметров и данных. Используется для генерации текста, программирования, генерации изображений, завершения запросов.

Модель T5 появившаяся в 2019 году. Особенностью является представление всех задач как преобразование текста в текст. Используется как универсальная модель для разных задач обработки языка.

В 2020 году мы получили модель VIT, которая использовалась для классификации изображений и в компьютерном зрении. Годом позже выкатили DALL-E, которая комбинирует GPT с векторным квантованием для работы с изображениями.

Трансформеры произвели революцию не только в обработке естественного языка, но и в компьютерном зрении, аудиоанализе, мультимодальном обучении и решении научных задач, таких как предсказание структуры белка.


Итог

Все началось с попытки воссоздать работу биологического нейрона, а выросло до архитектуры, понимающей контекст запросов. История показывает траекторию эволюции от чего-то простого к тому, что сейчас мы называем нейросетями.

Перцептрон дал базовое умение классифицировать данные и обучаться, CNN научили нейросеть видеть этот мир в его пространственных связях, RNN и LSTM подогнали память для работы с длинными последовательностями, AutoEncoder и GAN открыли эпоху генеративного ИИ, а механизм внимания стал ключом к пониманию глобального контекста.

Без любого из вышеперечисленных открытий, скорее всего, не было бы сегодняшних ChatGPT, Claude, Qwen, Gemini. Сегодня нейросети - уже не просто эксперименты, а полноценные инструменты, пусть и с особенностями, проблемами и ошибками, но в каком-то роде эффективные и меняющие индустрии.

Спасибо за внимание!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

XRP пробивает поддержку $1,95 после 13 месяцев, аналитик видит цель $0,90

XRP пробивает поддержку $1,95 после 13 месяцев, аналитик видит цель $0,90

XRP упал ниже уровня, который на протяжении большей части прошлого года служил структурной опорой для графика: области $1,95. Криптоаналитик Guy on the Earth (@guyontheearth
Поделиться
NewsBTC2025/12/24 05:00
XRP терпит удар, поскольку киты продают 1 миллиард монет, но поддерживающий Ripple адвокат заявляет, что XRP «потрясет мир в 2026 году»

XRP терпит удар, поскольку киты продают 1 миллиард монет, но поддерживающий Ripple адвокат заявляет, что XRP «потрясет мир в 2026 году»

XRP испытывает давление, поскольку слабость широкого рынка и агрессивные продажи со стороны китов толкают криптовалюту в более глубокое краткосрочное снижение. Согласно данным CoinMarketCap, XRP
Поделиться
Coinstats2025/12/24 03:56
Прогноз цены XRP: XRP нацелен на восстановление, поскольку экстремальный страх и перепроданность сигнализируют о потенциальном отскоке

Прогноз цены XRP: XRP нацелен на восстановление, поскольку экстремальный страх и перепроданность сигнализируют о потенциальном отскоке

XRP демонстрирует признаки возобновления рыночного интереса, поскольку настроения крайнего страха и перепроданные технические условия указывают на потенциальный отскок, привлекая внимание
Поделиться
Brave Newcoin2025/12/24 03:56