Хейтеры ИИ снова посрамлены

Некоторое время назад ГПТ не умели считать. А раз не умели, то ведь никогда не научатся, правда? И вот сейчас встретил где-то как пример «неумения» решение задачи «вычисли кубический корень из 815827779584» ДипСиком.
Что-то у него там не заладилось, поэтому он пришёл к неправильному ответу. Шах и мат, аметисты — тот, кто не умеет считать в уме, просто не найдёт ошибку и будет обманут.
Правда, дело несколько портит то, что я бы с большим интересом посмотрел на того человека, кто так хорошо научился считать в уме, что может вычислить в уме кубический корень из 815827779584 и не ошибиться.
На самом деле важно то, что для проверки решения не обязательно уметь считать в уме. Поскольку главная проверка в таких вопросах не тщательный отсмотр каждого действия по сто раз, а возведение найденного корня третьей степени в саму третью степень. Даже если девайс ошибается, вряд ли он будет ошибаться одинаково в обе стороны, симметрично. И вот это знание — как проверять ответы — несравнимо ценнее, чем долгая тренировка каких-то механических действий.
Это работает что с людьми, что с нейросетями: получил ответ — проверь его. Желательно, многими способами, но хотя бы одним.
Однако, как бы то ни было, я зашёл в ДипСик, запустил там режим «глубокого мышления» — и задал ему ту же задачу. И он нашёл правильный ответ. Хорошая была гипотеза про «не научится» — даже жаль, что так быстро перестала соответствовать реальности.
Но интереснее то, как он нашёл этот ответ. Нет, он его не помнил, и не вызвал внешнее приложение с калькулятором. Там можно развернуть «рассуждения» и посмотреть — он реально шёл к ответу методом приближений. Причём не просто так, а оптимизированных несколькими способами. Угадывал приблизительное значение, возводил его в куб, считал разность, корректировал гипотезу, и так много раз. То есть действовал ровно так, как предполагается действовать человеку, считающему на бумажке.
И так, как действует детерминистический алгоритм — с поправкой на то, что это делается вперемешку со словами и с менее детерминированными шагами (поскольку в промежутке было больше догадок, он шёл к ответу за меньше шагов, но зато дольше, поскольку это нейросеть, а не числодробилка в чистом виде).
Сам этот комментарий — про «не умеет» — был под статьёй, где автор гордился тем, что нашёл некий случай, с которым не справлялся некий ГПТ, если ему задавать вопрос про этот случай прямолинейно, а потому автор завалил кучу студентов при попытке сдать это задание.
Интересно, ему хотя бы на месяц хватит этого вопроса?