А вот и табличка с результатами
— Success Rate: в скольки играх разгадала число
— Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх
— Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на мою просьбу не использовать выделение жирным, за что и была оштрафована. Без этого может игр 66% бы выиграла...
Так что ответ на опрос: 55-70% (если топовая модель o1) и 25-45% если обычная не супер-дорогая и медленная.