Deep dive 2026 06 04 humanitys last exam ai confidence benchmark

เนื้อหาในบทความนี้

Humanity’s Last Exam: AI เก่งขึ้น แต่ยังมั่นใจผิดได้

Humanity’s Last Exam หรือ HLE เป็น benchmark ที่ตั้งชื่อได้แรงมากครับ

“ข้อสอบสุดท้ายของมนุษยชาติ”

ฟังแล้วเหมือนข่าวสาย AI ที่ชวนให้คนรีบดูว่าโมเดลไหนขึ้นอันดับหนึ่ง Gemini คะแนนเท่าไหร่ GPT คะแนนเท่าไหร่ Claude ตามอยู่ตรงไหน Grok ดีขึ้นไหม

แต่ถ้าอ่านแบบนั้น เราจะพลาดบทเรียนที่สำคัญกว่า

เพราะ HLE ไม่ได้น่าสนใจแค่เพราะมันยาก มันน่าสนใจเพราะมันบังคับให้เรากลับมาถามคำถามที่ธุรกิจควรถามกับ AI ทุกตัว:

AI ตอบถูกไหม และ AI รู้ไหมว่าตัวเองไม่รู้ตรงไหน

สองคำถามนี้ไม่เหมือนกันครับ

AI ที่ตอบผิดแบบลังเล ยังพอจัดการได้ AI ที่ตอบผิดแบบมั่นใจมาก น่ากลัวกว่าเยอะ

1) เกิดอะไรขึ้น

Humanity’s Last Exam เป็น benchmark จาก Center for AI Safety และ Scale AI

หน้า official ของ HLE ระบุว่าตอนนี้งานถูกตีพิมพ์ใน Nature แล้วเมื่อ 28 มกราคม 2026 และ dataset ถูก finalized เป็น 2,500 คำถามเมื่อ 3 เมษายน 2025 หลังผ่าน community feedback, bug bounty, และการถอดคำถามที่ searchable ออกไป

ตัวเลขหลักของ HLE คือ:

2,500 คำถาม
มากกว่า 100 สาขา
เกือบ 1,000 subject-expert contributors
มากกว่า 500 สถาบัน
50 ประเทศ
มีทั้ง text-only และ multimodal questions
มี public dataset และ private held-out test set เพื่อดู overfitting

คำถามมาจากผู้เชี่ยวชาญจริงในหลายสาขา ตั้งแต่คณิตศาสตร์ วิทยาศาสตร์ มนุษยศาสตร์ ไปจนถึงโจทย์เฉพาะทางที่คนทั่วไปอ่านแล้วยังไม่รู้ด้วยซ้ำว่าควรเริ่มคิดจากตรงไหน

ตัวอย่างบนหน้า HLE มีทั้งโจทย์แปลจารึกโบราณ และโจทย์ชีววิทยาเชิงกายวิภาคของนกฮัมมิงเบิร์ด

นี่ไม่ใช่ trivia quiz ไม่ใช่คำถามแนว “อธิบายเรื่องนี้ให้ฟังหน่อย” และไม่ใช่ benchmark ที่แค่ค้นเว็บเร็ว ๆ แล้วตอบได้

Nature paper อธิบายชัดว่า HLE ถูกสร้างขึ้นเพราะ benchmark ยอดนิยมอย่าง MMLU เริ่มวัด frontier model ได้ยากขึ้นแล้ว หลายโมเดลทำคะแนนเกิน 90% จน benchmark เริ่มอิ่มตัว

ถ้า benchmark ง่ายเกินไป เราจะเริ่มหลอกตัวเองว่า AI เก่งกว่าเดิมมาก ทั้งที่จริงอาจแค่เก่งขึ้นบนข้อสอบที่หมดแรงวัดแล้ว

HLE จึงพยายามย้ายสนามสอบไปที่ขอบความรู้ของมนุษย์

2) คะแนนไม่ใช่เรื่องเดียวที่ต้องดู

คนส่วนใหญ่จะมอง benchmark เป็น leaderboard

ใครที่หนึ่ง ใครแซงใคร ใครตกอันดับ

แต่ HLE มีอีก metric ที่สำคัญมาก: calibration error

พูดง่าย ๆ คือ AI ไม่ได้ถูกวัดแค่ว่าตอบถูกกี่ข้อ แต่วัดด้วยว่าความมั่นใจที่มันประกาศออกมา ตรงกับความจริงแค่ไหน

ถ้า AI บอกว่ามั่นใจ 80% แต่ตอบถูกจริงใกล้ 80% แบบนี้ถือว่าค่อนข้าง calibrated

แต่ถ้า AI บอกว่ามั่นใจ 80% แล้วตอบถูกจริง 20% นี่คือปัญหาใหญ่

Nature paper ระบุว่า frontier models บน HLE ยังมี low accuracy และ poor calibration หลายครั้งโมเดลตอบผิดพร้อม confidence สูง แทนที่จะยอมรับว่าคำถามเกินขีดความสามารถของตัวเอง

ตรงนี้สำคัญกับธุรกิจมากกว่าคะแนนอันดับหนึ่งครับ

เพราะในงานจริง เราไม่ได้เสียหายจาก AI ที่ตอบว่า “ผมไม่แน่ใจ”

เราเสียหายจาก AI ที่ตอบผิดแบบดูมั่นใจ

ตัวอย่างง่าย ๆ:

AI ตอบลูกค้าผิด แต่เขียนเหมือนอธิบาย policy ถูกต้อง
AI สรุปยอดขายผิด แต่รายงานดูเป็นมืออาชีพ
AI แนะนำขั้นตอนบัญชีผิด แต่ใช้ภาษาที่น่าเชื่อ
AI ช่วยเขียนโค้ดแล้วพลาด edge case แต่ test ไม่ครอบคลุม
AI อ่านเอกสารสัญญาแล้วไม่เห็นข้อยกเว้นสำคัญ

ทั้งหมดนี้ไม่ได้พังเพราะ AI “ไม่ฉลาด”

มันพังเพราะระบบรอบ AI ไม่มีวิธีตรวจว่าเมื่อไหร่ควรเชื่อ เมื่อไหร่ควรถามต่อ และเมื่อไหร่ต้องหยุดให้มนุษย์ดู

3) HLE ไม่ได้แปลว่าใครผ่านแล้วเป็น AGI

จุดนี้ต้องพูดให้ชัด

HLE เป็น benchmark ที่มีประโยชน์มาก แต่ไม่ควรถูกตีความเกินขอบเขต

Nature paper เองก็ระบุว่า performance สูงบน HLE จะบอกถึง expert-level capability บนคำถาม academic แบบ closed-ended ที่ตรวจได้ชัดเจน

แต่มันไม่ได้แปลว่าโมเดลมี autonomous research capability และไม่ได้แปลว่าเป็น AGI

นี่คือเรื่องที่คนทำธุรกิจควรเข้าใจ

ข้อสอบที่ดีหนึ่งชุดไม่ได้วัดทุกอย่าง

HLE วัดความสามารถในการตอบโจทย์ความรู้ระดับสูงที่มีคำตอบชัดเจน แต่งานธุรกิจจำนวนมากเป็น open-ended workflow

เช่น:

เลือกว่าควรตอบลูกค้ารายนี้อย่างไร
ตีความเจตนาของ lead จาก chat history
ตัดสินใจว่างานไหนควร automate ก่อน
สรุปปัญหาทีมขายจากข้อมูลหลายแหล่ง
ปรับ SOP เมื่อ policy เปลี่ยน
เลือกว่าจะ escalate case ไหนให้คนดู

งานพวกนี้ไม่ได้มีคำตอบเดียวเสมอไป

ดังนั้น HLE ไม่ใช่คำตอบสุดท้ายของการวัด AI แต่มันเป็นสัญญาณที่ดีมากว่าเราต้องจริงจังกับการวัดมากขึ้น

ไม่ใช่แค่ถามว่า AI ตอบได้ไหม แต่ต้องถามว่า AI ทำงานในบริบทของเราได้ปลอดภัยพอไหม

4) ธุรกิจควรมี “ข้อสอบสุดท้าย” ของตัวเอง

ผมคิดว่า lesson ที่เอาไปใช้ได้จริงที่สุดคือ:

ทุกบริษัทควรมี Humanity’s Last Exam เวอร์ชันเล็กของตัวเอง

ไม่ต้องมี 2,500 ข้อ ไม่ต้องครอบคลุม 100 สาขา ไม่ต้องให้ศาสตราจารย์ทั่วโลกช่วยออกข้อสอบ

แต่ควรมี private eval set ที่มาจากงานจริงของบริษัท

เช่น ถ้าเป็น Customer Support:

คำถามลูกค้าที่ตอบผิดแล้วเสียหาย
policy exception ที่พนักงานใหม่มักพลาด
case ที่ต้องส่งต่อมนุษย์
คำถามที่ห้ามตอบเกินข้อมูลใน KB
ตัวอย่าง chat ที่ต้องขอข้อมูลเพิ่มก่อนตอบ

ถ้าเป็น Sales:

lead ที่มี buying signal จริงกับ lead ที่แค่ถามเล่น
ข้อความที่ควร follow up ภายในวันเดียว
คำถามราคาที่ต้องอ้างอิง package ล่าสุด
case ที่ห้าม discount เอง
conversation ที่ควรสรุปเป็น CRM note

ถ้าเป็น Finance หรือ Back Office:

เอกสารที่ตัวเลขไม่ตรง
ใบเสร็จที่มี field หาย
รายการที่ต้องขอ approval
policy ที่มีข้อยกเว้น
case ที่ต้องไม่ให้ AI ตัดสินใจแทน

ถ้าเป็น AI coding workflow:

bug ที่ต้อง reproduce ได้ก่อนแก้
PR ที่ต้องมี test ก่อน merge
file scope ที่ agent ห้ามแตะ
dependency ที่ห้ามอัปเกรดเอง
deployment ที่ต้องมี rollback proof

นี่คือข้อสอบที่สำคัญกับธุรกิจมากกว่า leaderboard สาธารณะ

เพราะมันตอบคำถามว่า AI ตัวนี้ทำงานของเราได้จริงไหม ไม่ใช่แค่ AI ตัวนี้ทำคะแนนข้อสอบโลกได้ดีไหม

5) HLE-Rolling สอนเรื่อง eval ที่ไม่ควรนิ่ง

อีกจุดที่น่าสนใจคือ HLE-Rolling

หน้า official ระบุว่า HLE-Rolling เป็น dynamic fork ของ HLE ที่เปิดทางให้ community feedback และการอัปเดตคำถามอย่างต่อเนื่อง

เหตุผลคือ benchmark สาธารณะมีปัญหาเดิมเสมอ:

ถ้าเปิดไว้นานพอ โมเดลจะเริ่มเจอข้อมูลนั้นในโลกการเทรน หรืออย่างน้อยทีมพัฒนาจะ optimize กับ benchmark นั้นมากขึ้น

สุดท้ายข้อสอบก็เริ่มเสียแรงวัด

ธุรกิจเจอปัญหาเดียวกันครับ

ถ้าเราทำ eval set ครั้งเดียวแล้วไม่อัปเดตเลย มันจะค่อย ๆ หลุดจากงานจริง

สินค้าเปลี่ยน policy เปลี่ยน ลูกค้าเปลี่ยนคำถาม ทีมเปลี่ยน SOP เครื่องมือเปลี่ยน และ AI model เปลี่ยน

ดังนั้น private eval ของธุรกิจต้อง rolling ด้วย

ไม่ต้องซับซ้อนมาก แต่อย่างน้อยควรมี loop แบบนี้:

เก็บเคสที่ AI ตอบผิดหรือพลาด nuance
แปลงเป็น test case
ใส่ expected behavior ที่ชัดเจน
ระบุว่า case ไหนต้อง escalate
rerun เมื่อเปลี่ยน model, prompt, KB, tool, หรือ workflow
เก็บผลลัพธ์ไว้ดู trend ไม่ใช่ดูแค่ครั้งเดียว

นี่คือวิธีเปลี่ยน AI จากของเล่นที่ดูฉลาด ให้กลายเป็นระบบที่ค่อย ๆ น่าเชื่อถือขึ้น

6) OPB Stack / Business OS ควรคิดแบบนี้

สำหรับ Data-Espresso ผมมอง HLE เป็นสัญญาณของยุคที่ AI adoption ต้องเลิกวัดแค่ความรู้สึกว่า “มันเก่ง”

เราต้องวัดเป็น workflow

ใน OPB Stack หรือระบบ AI coworker ของธุรกิจ คำถามควรเป็น:

Agent เห็น source อะไร
Agent ใช้ tool อะไร
Agent มีสิทธิ์ทำอะไร
Agent ต้องขอ approval ตอนไหน
Agent แสดง proof อะไรก่อนจบงาน
Agent รู้ไหมว่า confidence ต่ำ
Agent escalate case อันตรายไหม
Agent เก็บความผิดพลาดกลับไปปรับ skill หรือ SOP ไหม

นี่คือ Business OS layer ที่อยู่เหนือ model

เพราะโมเดลจะเปลี่ยนเรื่อย ๆ วันนี้ตัวหนึ่งนำ leaderboard อีกสามเดือนตัวอื่นอาจแซง

แต่ระบบที่ดีต้องคุมงานได้ ไม่ว่า model ไหนอยู่ข้างใต้

HLE ช่วยเตือนเราว่า even frontier models ยังต้องถูกวัด ดังนั้น AI workflow ของธุรกิจยิ่งต้องถูกวัดมากกว่าเดิม

7) มุมมองของผม

ผมไม่ได้อ่าน Humanity’s Last Exam แล้วคิดว่า “โมเดลไหนชนะ”

ผมอ่านแล้วคิดว่า “เราควรเลิกเชื่อ AI จากความลื่นของคำตอบ”

AI ที่พูดดีไม่ได้แปลว่าถูก AI ที่ตอบเร็วไม่ได้แปลว่าพร้อมใช้ AI ที่คะแนน benchmark สูงไม่ได้แปลว่าปลอดภัยใน workflow ของเรา

สิ่งที่ต้องดูคือ proof

ตอบจาก source ไหน confidence แปลว่าอะไร เคสนี้เคย test ไหม ถ้าผิดแล้วใครรู้ ถ้าเสี่ยงแล้วหยุดไหม ถ้าเกิน scope แล้ว escalate ไหม

นี่คือคำถามที่ทำให้ AI กลายเป็น coworker ได้จริง

ไม่ใช่แค่ chatbot ที่ตอบเก่ง

สำหรับธุรกิจไทย ผมจะสรุปแบบนี้ครับ:

อย่าถามแค่ว่า AI เก่งแค่ไหน ให้ถามว่า AI รู้ไหมว่าตัวเองไม่รู้ตรงไหน

ถ้าระบบยังตอบคำถามนี้ไม่ได้ อย่าเพิ่งให้มันอยู่ใกล้งานที่มีเงินจริง ลูกค้าจริง หรือชื่อเสียงจริง

แต่ถ้าเราสร้างข้อสอบเล็ก ๆ ของธุรกิจเราเองได้ มี eval มี approval มี proof มี correction loop

AI จะไม่ได้เป็นแค่เครื่องมือช่วยตอบ มันจะเริ่มเป็นระบบทำงานที่เรียนรู้จากความผิดพลาดได้จริง

อ่านแล้ว: 51

Deep Dive: Humanity’s Last Exam as AI confidence benchmark