
Tools: จุดที่ AI เริ่มลงมือทำ ในวันที่ ChatGPT ก็ค้นเว็บได้แล้ว
ใน EP01 เราเข้าใจแล้วว่า Hermes Agent คืออะไร EP02 พูดถึงปัญหา continuity ของการคุยกับ AI ทีละ session และ EP03 ติดตั้ง Hermes จริง ๆ
EP04 นี้ต้องอัปเดตมุมมองให้ทันปัจจุบันก่อนครับ เมื่อก่อนเรามักอธิบาย agent แบบง่าย ๆ ว่า “chatbot คุยได้ แต่เข้าเว็บหรือทำงานแทนเราไม่ได้” วันนี้ประโยคนั้นไม่แม่นพอแล้ว เพราะ ChatGPT Search ค้นข้อมูลบนเว็บได้ และ OpenAI ก็มี Codex app ที่เป็น coding agent สำหรับทำงานกับ codebase, worktree, Git และ automation
ดังนั้นประเด็นของ Hermes Tools ไม่ใช่ “ChatGPT ทำอะไรไม่ได้เลย” แต่คือ “AI เข้าไปอยู่ใน workflow จริงของเราได้ลึกแค่ไหน”
Tools คือชั้นที่ทำให้ AI ไม่ได้หยุดแค่ตอบ แต่เริ่มรับงาน ตรวจงาน แก้งาน ตั้งเวลาทำซ้ำ และรายงานกลับมาในช่องทางที่เราใช้จริง
—
ทำไม Tools ถึงยังเป็นจุดพลิก แม้ ChatGPT จะค้นเว็บได้แล้ว?
ChatGPT Search ทำให้ AI หาข้อมูลสดได้ดีขึ้น นี่เป็นเรื่องดีและควรยอมรับ ไม่ควรเขียนเหมือนยุคที่ AI ถูกตัดขาดจากอินเทอร์เน็ต
Codex app ก็ทำให้ coding agent ของ OpenAI จริงจังขึ้นมาก โดยเฉพาะงานใน codebase, worktree, Git, cloud environment และ automation ฝั่ง software development
แต่สำหรับเจ้าของธุรกิจ คำถามที่สำคัญกว่า “AI ตัวไหนค้นเว็บได้” คือ:
AI ตัวนั้นอยู่ตรงไหนในระบบงานของเรา?
ถ้ามันค้นข้อมูลได้ แต่ยังไม่อ่านไฟล์งานเรา ไม่แตะ repo จริง ไม่ upload สื่อ ไม่แก้ issue ไม่ตั้ง schedule ไม่ส่ง report ใน Telegram และไม่เชื่อม service ภายในบริษัท ความสามารถนั้นยังเป็นแค่ feature เดี่ยว
Hermes Tools สำคัญเพราะมันรวม tool หลายประเภทไว้ใน agent runtime เดียว แล้วให้ AI เดิน workflow ต่อเนื่องได้ เช่น ค้นข้อมูล → เปิดเว็บตรวจจริง → แก้ไฟล์ → รันคำสั่ง → upload → update issue → รายงานผล
Hermes มี toolset รวมประมาณ 70+ tool แบ่งเป็นกลุ่มตาม use case
—
Toolsets หลักของ Hermes
1. web toolset: ค้นและดึงข้อมูลจากอินเทอร์เน็ต
เครื่องมือ:
web_search: ค้นหาจาก search engine รองรับ operator เช่นsite:,filetype:,-termweb_extract: ดึง content จาก URL ใดก็ได้ รองรับ PDF, markdown conversion
ใช้สำหรับ:
- Research ข้อมูล, fact-check บทความ
- ดึงราคาสินค้าหรือ content จากเว็บที่ index ได้
- ติดตามข่าวสาร industry ตามคีย์เวิร์ด
ข้อจำกัด: สำหรับเว็บที่ต้อง login หรือ dynamic content ต้องใช้ browser tool แทน
—
2. browser toolset: เปิดเว็บจริง คลิกได้จริง
เครื่องมือสำคัญ:
browser_navigate: เปิด URLbrowser_snapshot: อ่าน accessibility tree ของหน้าเว็บ (หา element, form, button)browser_click/browser_type: คลิก, พิมพ์ข้อความในฟอร์มbrowser_vision: screenshot + วิเคราะห์ด้วย AI visionbrowser_scroll: เลื่อนหน้าลง
ใช้สำหรับ:
- เข้าเว็บที่ต้อง login, กรอก form, navigate ผ่าน UI จริง
- ตรวจ web app ว่า render ถูกไหม
- Automate repetitive web tasks ที่ไม่มี API
—
3. terminal toolset: รัน command ในเครื่องจริง
เครื่องมือ:
terminal: รัน shell command, scriptprocess: manage background processes
ใช้สำหรับ:
- รัน Python, Node.js, bash script
- ตรวจ log file, disk usage
- Build, deploy, git operations
- Automate system tasks
ข้อควรระวัง: terminal tool มีสิทธิ์เต็มในเครื่อง ควร review command ที่ destructive ก่อนอนุมัติ (Hermes ถามก่อน run ในโหมด default)
—
4. file toolset: อ่านเขียนค้นหาไฟล์
เครื่องมือ:
read_file: อ่านไฟล์ text พร้อม line numberwrite_file: เขียนหรือสร้างไฟล์ใหม่patch: แก้ไขเฉพาะส่วน (find-and-replace อัจฉริยะ)search_files: ค้นหาใน file content หรือชื่อไฟล์
ใช้สำหรับ:
- อ่านและ summarize เอกสาร, CSV, Markdown
- เขียนรายงาน, draft เนื้อหา, update config
- ค้นหา pattern ใน codebase หรือ log
—
5. vision toolset: วิเคราะห์ภาพ
เครื่องมือ: vision_analyze
ใช้สำหรับ:
- วิเคราะห์ screenshot, diagram, chart
- อ่านข้อมูลจากใบเสร็จ, invoice ที่เป็นรูปภาพ
- QA visual output ของ app หรือ web
—
6. image_gen toolset: สร้างรูปจาก prompt
เครื่องมือ: image_generate
ใช้สำหรับ:
- สร้าง cover, thumbnail, illustration
- Gen asset สำหรับ content โดยไม่ต้องออกจาก session
—
7. tts toolset: Text-to-Speech
เครื่องมือ: text_to_speech
ใช้สำหรับ:
- ฟัง summary หรือรายงานแทนการอ่าน
- ส่ง voice message ผ่าน messaging gateway
- Provider: Edge TTS (ฟรี), ElevenLabs, OpenAI, Kokoro
—
8. cronjob toolset: ตั้งเวลาให้ agent ทำงานอัตโนมัติ
เครื่องมือ: cronjob (action: create, list, pause, resume, remove)
ตัวอย่างที่ใช้บ่อย:
- รายงานยอดขายทุกเช้า 8 โมง
- สแกนข่าว industry ทุกวัน
- ส่ง digest สรุปประจำสัปดาห์ผ่าน Telegram
Cron jobs run ใน fresh session แยกกัน ไม่ผูกกับ session ปัจจุบัน
—
9. MCP (Model Context Protocol): ต่อกับ External Tools
MCP เป็น standard protocol ที่ให้ Hermes ต่อกับ service ภายนอกที่ไม่ได้อยู่ใน built-in toolset
ตัวอย่าง MCP servers ที่ใช้บ่อย:
- GitHub: create issue, review PR, manage repos
- Notion / Airtable: read/write database
- Google Workspace: Gmail, Calendar, Drive, Sheets
- Stripe: check payments, create invoices
- Custom internal API: endpoint ของบริษัทที่สร้างเอง
MCP tools ขึ้นต้นด้วย mcp_ ใน session เช่น mcp_github_create_issue
Setup: hermes mcp add แล้ว Hermes detect tool ใหม่ใน session ถัดไป
—
เริ่ม Tools ยังไงถ้าเพิ่งเริ่ม?
แนะนำ 4 ระดับตามความต้องการ:
ระดับ 1: Research + Document เปิด: web, file ทำได้: ค้นข้อมูล, อ่านเขียนไฟล์, สรุปเอกสาร
ระดับ 2: Automation เบา เพิ่ม: terminal, vision ทำได้: รัน script, ตรวจ log, วิเคราะห์ภาพ
ระดับ 3: Scheduled Workflow เพิ่ม: cronjob ทำได้: งานอัตโนมัติตามเวลา ไม่ต้อง prompt ทุกวัน
ระดับ 4: Full Agent System เพิ่ม: browser, MCP servers ทำได้: เข้าเว็บจริง, ต่อกับ service ภายนอก, workflow ซับซ้อน
—
จัดการ Tools อย่างไร?
hermes tools # interactive UI เปิด/ปิด toolset
hermes tools list # ดู toolset ทั้งหมดและ status
hermes tools enable web # เปิด web toolset
hermes tools disable tts # ปิด tts toolset
Tool changes มีผลใน session ถัดไป (ใช้ /reset หรือเปิด session ใหม่)
—
สรุป: Tools คือสิ่งที่เปลี่ยน AI จาก feature เดี่ยว เป็น workflow worker
| มุมเดิม | มุมที่ควรมองตอนนี้ |
|---|---|
| AI ตอบได้แค่ข้อมูลที่รู้อยู่แล้ว | ChatGPT Search และ web tools ทำให้ AI ค้นข้อมูลสดได้ |
| ผู้ใช้ต้อง copy-paste ข้อมูลให้ AI | Agent ที่มี file/browser/MCP อ่าน context งานจริงได้เอง |
| AI coding ยังเป็นแค่การแนะนำ code | Codex app และ terminal/worktree tools ทำให้งาน code ลงมือได้จริงขึ้น |
| งานซ้ำ ๆ ต้องกด prompt ทุกวัน | Cron และ automation ทำให้งานเกิดตามเวลา |
| AI สรุปให้ได้แค่ text | Agent ทำ, ตรวจ, update ระบบ, รายงาน ครบใน loop เดียว |
ประโยคสำคัญคือ: อย่าแข่งกันว่า AI ตัวไหน “ตอบเก่งกว่า” อย่างเดียว ให้ดูว่า AI ตัวไหนเข้าไปอยู่ในระบบงานจริงของเราได้มากกว่า
EP ถัดไปเราจะพูดถึง Memory: ทำไม AI Coworker ต้องจำงานได้ และ Hermes จัดการ memory ยังไงในทางปฏิบัติ
—
Sources:
- Hermes Tools Reference: https://hermes-agent.nousresearch.com/docs/reference/tools-reference
- Hermes Features (Tools & Toolsets): https://hermes-agent.nousresearch.com/docs/user-guide/features/tools
- Hermes MCP Integration: https://hermes-agent.nousresearch.com/docs/user-guide/features/mcp
- Hermes CLI Reference: https://hermes-agent.nousresearch.com/docs/reference/cli-commands
- ChatGPT Search: https://help.openai.com/en/articles/9237897-chatgpt-search/
- OpenAI Codex app: https://developers.openai.com/codex/app/features
OPB Stack tie-in: Tools ต้องอยู่ใน workflow ไม่ใช่แค่โชว์ feature
จาก ICP ล่าสุดของ OPB Stack ลูกค้าชุดแรกที่เหมาะที่สุดไม่ใช่คนที่ยังไม่เคยใช้ AI เลย แต่คือ founder/operator ทีมเล็ก 1-10 คนที่ใช้ ChatGPT/Claude/Gemini อยู่แล้ว แต่งานยังแตกเป็น LINE, Sheets, Docs, inbox, social, GitHub และ content calendar
สำหรับคนกลุ่มนี้ Tools มีความหมายมากกว่า “AI ทำอะไรได้บ้าง” เพราะมันคือจุดที่ AI เริ่มเข้าไปอยู่ใน workflow จริง เช่น research คู่แข่ง อ่านไฟล์ร่าง เปิดเว็บตรวจ landing page อัปโหลดสื่อเข้า WordPress update GitHub issue แล้วรายงานกลับ Telegram
นี่คือเหตุผลที่ OPB Stack ต้องผูก Hermes เข้ากับ sandbox ส่วนตัว ไม่ใช่ทำเป็นหน้า chat เฉย ๆ ถ้า AI coworker ไม่มี tool loop มันจะยังเป็นที่ปรึกษาที่ตอบเก่ง แต่ยังไม่ใช่คนช่วยงานที่ผลิต artifact และมี proof ให้ตรวจ
ถ้าอยากเห็นเวอร์ชัน managed path ของแนวคิดนี้ ดูได้ที่ opbstack.com
