Я снова возвращаюсь к сравнению моделей. Однако сегодня мы не будем рассматривать нейросети от разных компаний, а сравним Gemini 3 Flash и предыдущее поколение Я снова возвращаюсь к сравнению моделей. Однако сегодня мы не будем рассматривать нейросети от разных компаний, а сравним Gemini 3 Flash и предыдущее поколение

Битва поколений: Gemini 2.5 Flash vs Gemini 3 Flash

Я снова возвращаюсь к сравнению моделей. Однако сегодня мы не будем рассматривать нейросети от разных компаний, а сравним Gemini 3 Flash и предыдущее поколение этой серии - Gemini 2.5 Flash.

С одной стороны, кто-то уже сейчас скажет, что третья версия будет лучше. Однако я не стану спешить с таким выводом, сравню обе версии и вынесу вердикт, опираясь на свое далеко не авторитетное мнение.

Принимайте стратегически удобное положение, делайте ставки, а я приступаю к сравнению.

382795b66bb969b46d82f80c5dd48d04.png

Краткий экскурс

Gemini 2.5 Flash

Языковая модель, разработанная Google DeepMind 18 апреля 2025 года. Главное преимущество - высокая скорость генерации при сохранении точности и логичности ответов.

Модель способна работать с разными типами входных данных и обрабатывать до 1 млн токенов за раз. По сравнению с конкурентами своего времени она значительно дешевле. На момент выхода лишь o4-mini от OpenAI приблизился к ней по соотношению цены и качества

Gemini 3 Flash

Следующая версия линейки выпущена 17 декабря 2025 года. Модель в ряде внутренних тестов обрабатывает запросы быстрее своего предшественника и в некоторых сценариях даже быстрее Gemini 3 Pro.

Контекстное окно такое же, как и у версии 2.5 Flash. Ключевое улучшение - пожалуй, более быстрая обработка мультимодальных действий.


Условия тестирования

Как уже стало традицией в моих последних статьях-сравнениях, озвучу условия тестирования.

Модели будут сравниваться в четырех дисциплинах: написание текста, решение задач из высшей математики, программирование и логика.

Каждая задача может получить одну из трех оценок: полностью выполнена (+), частично выполнена (+−) и полный провал (−). В конце подведу итоги в таблице с результатами и своими комментариями по каждому заданию, если сочту их нужными.

Первое задание

Скрытый текст

Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.

Основные требования:

Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ - комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.

Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.

Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.

Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.

Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.

Второе задание

Математические задачи будут подгружаться в модель фотографиями - заодно проверим понимание промта из текста и сразу нескольких изображений, хотя не думаю, что здесь возникнут трудности. Всего будет три задания.

Скрытый текст

Третье задание

Скрытый текст

Ты - профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Сделай дополнительную кнопку, с помощью которой можно запустить игру «Змейка» со всеми ее основными механиками. Язык программирования - Python.

Четвертое задание

Пару раз уже давал моделям задачи на логику, но теперь я постарался найти что-то посложнее предыдущих вариантов. Слишком уж они были простыми, а здесь все не так очевидно (по крайней мере, мне так показалось).

Скрытый текст
  • Врач прописал больному 3 таблетки и велел принимать их через каждые полчаса. Сколько времени уйдет на прием таблеток?

  • Представлен ряд из шести чашек на столе. Три первые из них ничем не наполнены, а три следующие - с водой. Как добиться чередования пустых чашек и чашек с водой, касаясь разрешается только одной чашки, при этом толкать чашку чашкой запрещается?

  • На улице развесили плакаты: «Граждане, будьте бдительны, орудуют воры-карманники». Полицейские знали о том, что на улице действительно небезопасно, но срывали эти объявления. Почему?

  • В каком случае достижение предшествует цели, стремлению и успеху?


Небольшое отступление

Обе модели линейки для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.


Сравнение

Первое задание

Gemini 2.5 Flash

c28e0add373582effbab81b36bb71c85.png

Сам рассказ написан действительно неплохо, однако комедийная составляющая, по моему мнению, если здесь и есть, то лишь в названиях вещей и мест. Да и то никакого особого смеха текст не вызывает.

Засчитываю как частичное выполнение: рассказ все-таки есть, написан вполне прилично и соответствует заявленной тематике. Но комедии, увы, практически никакой не наблюдается.

Gemini 3 Flash

e7341c3d8c4c031bf74a360862e579bb.png

Рассказ от Gemini 3 Flash произвел на меня более приятное впечатление. Текст вновь хорош, да еще и комедийная составляющая появилась. Конечно, ее немного, но я бы даже записал это в плюс - избыток примитивного юмора мог испортить впечатление от рассказа.

Второе задание

Gemini 2.5 Flash

c58f0df9a57d13004e372dc337ecd356.png

Первое задание сразу уходит в раздел неправильно выполненных. Как можно проводить операции над множествами, если сами эти множества определены неверно?

Второе и третье задания выполнены корректно, хотя решение третьего можно было бы сделать менее громоздким. Тем не менее, модель снова получает очки за частичный успех.

Gemini 3 Flash

836a640fbd4f9cc351cc86b0f9e43e07.png

Gemini 3 Flash, как и Gemini 2.5 Flash, ошибается в первой задаче. Он опять-таки не получил начальных данных, не говоря уже о каких-либо операциях с множествами.

Что касается остальных двух заданий - здесь все безупречно. Мне нравится предложенное решение, оно лучше предыдущего варианта, и никаких замечаний у меня нет.

Третье задание

Gemini 2.5 Flash

d7cf7d6c54f3fe6cfc93c739f785dbb5.png

Вот вроде бы калькулятор есть и игра тоже присутствует. Однако обратим внимание на то, что в калькуляторе отсутствуют стандартные функции сложения и вычитания.

В остальном все работает достаточно хорошо и без нареканий. Хотя как без плюса и минуса пользоваться калькулятором - не особо понятно, да и какой от него смысл? Ну, можем использовать для вычисления степени числа, синуса. Все же из-за такого просчета засчитать полное выполнение задания я не могу.

Gemini 3 Flash

eb05d8570e47e7a64823e84dcb833115.png

Gemini 3 Flash сделал калькулятор идеально. Все работает без каких-либо нареканий. А вот к змейке у меня есть вопросы. Просидев энное время, я так и не понял, как ею управлять. По инструкции от модели - стрелочками, а по факту - видимо, только силой какой-то извилины в мозге, да и то пока непонятно, какой именно.

Опять же, не могу считать задание полностью выполненным, поскольку хотя половина задания и была выполнена, но считать вторую рабочей невозможно.

Четвертое задание

Gemini 2.5 Flash

72366bec94599c0536060a8dcf4dfc04.png

Единственное, что мне мешает засчитать это задание как полностью решенное, - вторая задачка. Модель почему-то выбрала четвертую чашку (исходя из ее объяснений), хотя правильный вариант выбора - пятая.

Вообще в этом случае сложно определить: с одной стороны, Gemini 2.5 Flash говорит, что берем вторую чашку с водой (то есть пятую в общем количестве), а потом сразу поясняет, что порядковый номер у нее - четыре (что не сходится с ее же объяснениями).

Gemini 3 Flash

20a49b55c22abe74fd5e2b8fc713d4ac.png

Gemini 3 Flash щелкает эти задачи как орешки, получая везде правильный ответ.


Итог

Задание\Модель

Gemini 2.5 Flash

Gemini 3 Flash

Комментарий

Первое задание

+-

+

Gemini 2.5 Flash хоть и написал хороший текст, но оформить хоть как-то адекватно комедию не смог.

Второе задание

+-

+-

Обе модели не справились с операциями над множествами. При чем провалили это задание на моменте получения значений этих множеств.

Третье задание

+-

+-

Gemini 2.5 Flash забыл об стандартных операциях сложения и вычитания.

Gemini 3 Flash не смог реализовать рабочую версию змейки.

Четвертое задание

+-

+

Gemini 2.5 Flash допустил ошибку в собственных суждениях, что мешает модели прийти к верному ответу.

Итог оказался предсказуемым - Gemini 3 Flash превосходит своего предшественника, хотя в некоторых моментах все же есть одинаковые ошибки.

Можно ли сказать, что Gemini 2.5 Flash однозначно плох? Нет, конечно нет. Модель по-прежнему демонстрирует удовлетворительные результаты, хотя по качеству уже отстает от вариантой нынешнего времени.

Касательно того, где и какую модель лучше выбрать. Для текста и логики лучше подойдет Gemini 3 Flash, который хорошо показывает себя в этих направлениях. В остальных дисциплинах я бы не сказал, что возможности у моделей как-то сильно разняться.

Спасибо за прочтение!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.