The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks

Иллюзия Готовности: Стресс-тестирование Больших Передовых Моделей на Мультимодальных Медицинских Бенчмарках В данной работе исследуется надежность больших передовых моделей, таких как GPT-5, на медицинских бенчмарках. Несмотря на высокие результаты, эти модели часто демонстрируют уязвимости. Они могут давать правильные ответы даже без ключевых входных данных, таких как изображения, менять ответы из-за незначительных изменений в запросах и фабриковать ошибочные рассуждения. Исследование показывает, что текущие бенчмарки вознаграждают стратегии сдачи тестов, а не подлинное медицинское понимание, что приводит к иллюзии готовности. Исследование оценивает шесть моделей по шести бенчмаркам, выявляя хрупкость и обучение ярлыкам. Анализ, проведенный под руководством врачей, показывает, что бенчмарки сильно различаются в том, что они измеряют. Авторы предостерегают от полагаться исключительно на результаты бенчмарков и призывают к оценке устойчивости, обоснованности и соответствия реальным медицинским потребностям. Результаты указывают на необходимость переоценки способов измерения прогресса в области медицинского ИИ, чтобы гарантировать надежность моделей для принятия медицинских решений. #ИИ #Здравоохранение #МедицинскийИИ #Бенчмаркинг #МашинноеОбучение #GPT5 #Устойчивость #Оценка документ - подписаться - отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Back to Top