Сегодня 23 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследование Apple показало, что ИИ-модели не думают, а лишь имитируют мышление

Исследователи Apple обнаружили, что большие языковые модели, такие как ChatGPT, не способны к логическому мышлению и их легко сбить с толку, если добавить несущественные детали к поставленной задаче, сообщает издание TechCrunch.

 Источник изображения: D koi/Unsplash

Источник изображения: D koi/Unsplash

Опубликованная статья «Понимание ограничений математического мышления в больших языковых моделях» поднимает вопрос о способности искусственного интеллекта к логическому мышлению. Исследование показало, что большие языковые модели (LLM) могут решать простые математические задачи, но добавление малозначимой информации приводит к ошибкам.

Например, модель вполне может решить такую задачу: «Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу. Сколько киви у Оливера?». Однако, если при этом в условие задачи добавить фразу «в воскресенье 5 из этих киви были немного меньше среднего размера», модель скорее всего вычтет эти 5 киви из общего числа, несмотря на то, что размер киви не влияет на их количество.

 Источник изображения: Copilot

Источник изображения: Copilot

Мехрдад Фараджтабар (Mehrdad Farajtabar), один из соавторов исследования, объясняет, что такие ошибки указывают на то, что LLM не понимают сути задачи, а просто воспроизводят шаблоны из обучающих данных. «Мы предполагаем, что это снижение [эффективности] связано с тем фактом, что современные LLM не способны к подлинному логическому рассуждению; вместо этого они пытаются воспроизвести шаги рассуждения, наблюдаемые в их обучающих данных», — говорится в статье.

Другой специалист из OpenAI возразил, что правильные результаты можно получить с помощью техники формулировки запросов (prompt engineering). Однако Фараджтабар отметил, что для сложных задач может потребоваться экспоненциально больше контекстных данных, чтобы нейтрализовать отвлекающие факторы, которые, например, ребёнок легко бы проигнорировал.

Означает ли это, что LLM не могут рассуждать? Возможно. Никто пока не даёт точного ответа, так как нет чёткого понимания происходящего. Возможно, LLM «рассуждают», но способом, который мы пока не распознаём или не можем контролировать. В любом случае эта тема открывает захватывающие перспективы для дальнейших исследований.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
На GitHub напал Megalodon — вредоносный код заразил более чем 5500 репозиториев 20 мин.
Марк Цукерберг высказался в защиту тотальной слежки за действиями сотрудников Meta — для обучения ИИ, но это не точно 2 ч.
Техногиганты в последний момент отговорили Трампа подписывать указ об обязательных проверках ИИ 2 ч.
Новый поиск Google оказался капризным: из-за ИИ запросы «стой» и «игнорируй» ломают выдачу 4 ч.
Новая статья: INDUSTRIA 2 — черновая отделка. Рецензия 14 ч.
«Горькое разочарование»: амбициозная пошаговая тактика Warhammer 40,000: Mechanicus 2 стартовала в Steam со «смешанными» отзывами 16 ч.
Ролевой шутер Witchfire от экс-разработчиков Painkiller и Bulletstorm скоро получит перевод на русский — подробности The Revelations Update 18 ч.
«Болотный лагерь выглядит великолепно»: 20 минут нового геймплея ремейка «Готики» впечатлили фанатов оригинальной игры 19 ч.
Cisco выяснила, почему безупречные на первый взгляд отчёты ИИ о киберинцидентах нельзя принимать на веру 19 ч.
Заряженное ностальгией и ужасами приключение Midnight Souls отправит искать любовь и бороться со стариками 20 ч.
Lenovo представила ноутбук IdeaPad Slim 5i на чипе Intel Wildcat Lake — это прямой конкурент MacBook Neo 24 мин.
С началом строительства ЦОД Meta в США вода в близлежащем округе помутнела 28 мин.
Учёные разобрались со сверхпроводимостью алмаза — это шаг к долгожданному прорыву в квантовой и гибридной электронике 29 мин.
Cолнечная и ветровая энергетика впервые обогнали газовые электростанции по выработке электричества 3 ч.
Blue Origin возобновляет запуски многоразовой ракеты New Glenn — расследование аварии завершено 4 ч.
Власти США назвали пошлины на полупроводники действенным стимулом к локализации производства чипов 9 ч.
Anthropic на следующей неделе завершит привлечение $30 млрд, подняв капитализацию за пределы $900 млрд и обойдя OpenAI 10 ч.
Google обжаловала решение суда о «покупке» своему поиску места на iPhone 13 ч.
Tesla Cybercab оказался самым экономичным электромобилем в США, опередив соперников почти на треть 15 ч.
Китайские контрактные производители чипов начали поднимать цены на услуги, чтобы урвать свой кусок ИИ-пирога 15 ч.