EP04: Tools ในวันที่ ChatGPT ค้นเว็บได้แล้ว [Hermes Series]

Tools: จุดที่ AI เริ่มลงมือทำ ในวันที่ ChatGPT ก็ค้นเว็บได้แล้ว

ใน EP01 เราเข้าใจแล้วว่า Hermes Agent คืออะไร EP02 พูดถึงปัญหา continuity ของการคุยกับ AI ทีละ session และ EP03 ติดตั้ง Hermes จริง ๆ

EP04 นี้ต้องอัปเดตมุมมองให้ทันปัจจุบันก่อนครับ เมื่อก่อนเรามักอธิบาย agent แบบง่าย ๆ ว่า “chatbot คุยได้ แต่เข้าเว็บหรือทำงานแทนเราไม่ได้” วันนี้ประโยคนั้นไม่แม่นพอแล้ว เพราะ ChatGPT Search ค้นข้อมูลบนเว็บได้ และ OpenAI ก็มี Codex app ที่เป็น coding agent สำหรับทำงานกับ codebase, worktree, Git และ automation

ดังนั้นประเด็นของ Hermes Tools ไม่ใช่ “ChatGPT ทำอะไรไม่ได้เลย” แต่คือ “AI เข้าไปอยู่ใน workflow จริงของเราได้ลึกแค่ไหน”

Tools คือชั้นที่ทำให้ AI ไม่ได้หยุดแค่ตอบ แต่เริ่มรับงาน ตรวจงาน แก้งาน ตั้งเวลาทำซ้ำ และรายงานกลับมาในช่องทางที่เราใช้จริง

ทำไม Tools ถึงยังเป็นจุดพลิก แม้ ChatGPT จะค้นเว็บได้แล้ว?

ChatGPT Search ทำให้ AI หาข้อมูลสดได้ดีขึ้น นี่เป็นเรื่องดีและควรยอมรับ ไม่ควรเขียนเหมือนยุคที่ AI ถูกตัดขาดจากอินเทอร์เน็ต

Codex app ก็ทำให้ coding agent ของ OpenAI จริงจังขึ้นมาก โดยเฉพาะงานใน codebase, worktree, Git, cloud environment และ automation ฝั่ง software development

แต่สำหรับเจ้าของธุรกิจ คำถามที่สำคัญกว่า “AI ตัวไหนค้นเว็บได้” คือ:

AI ตัวนั้นอยู่ตรงไหนในระบบงานของเรา?

ถ้ามันค้นข้อมูลได้ แต่ยังไม่อ่านไฟล์งานเรา ไม่แตะ repo จริง ไม่ upload สื่อ ไม่แก้ issue ไม่ตั้ง schedule ไม่ส่ง report ใน Telegram และไม่เชื่อม service ภายในบริษัท ความสามารถนั้นยังเป็นแค่ feature เดี่ยว

Hermes Tools สำคัญเพราะมันรวม tool หลายประเภทไว้ใน agent runtime เดียว แล้วให้ AI เดิน workflow ต่อเนื่องได้ เช่น ค้นข้อมูล → เปิดเว็บตรวจจริง → แก้ไฟล์ → รันคำสั่ง → upload → update issue → รายงานผล

Hermes มี toolset รวมประมาณ 70+ tool แบ่งเป็นกลุ่มตาม use case

Toolsets หลักของ Hermes

1. web toolset: ค้นและดึงข้อมูลจากอินเทอร์เน็ต

เครื่องมือ:

  • web_search: ค้นหาจาก search engine รองรับ operator เช่น site:, filetype:, -term
  • web_extract: ดึง content จาก URL ใดก็ได้ รองรับ PDF, markdown conversion

ใช้สำหรับ:

  • Research ข้อมูล, fact-check บทความ
  • ดึงราคาสินค้าหรือ content จากเว็บที่ index ได้
  • ติดตามข่าวสาร industry ตามคีย์เวิร์ด

ข้อจำกัด: สำหรับเว็บที่ต้อง login หรือ dynamic content ต้องใช้ browser tool แทน

2. browser toolset: เปิดเว็บจริง คลิกได้จริง

เครื่องมือสำคัญ:

  • browser_navigate: เปิด URL
  • browser_snapshot: อ่าน accessibility tree ของหน้าเว็บ (หา element, form, button)
  • browser_click / browser_type: คลิก, พิมพ์ข้อความในฟอร์ม
  • browser_vision: screenshot + วิเคราะห์ด้วย AI vision
  • browser_scroll: เลื่อนหน้าลง

ใช้สำหรับ:

  • เข้าเว็บที่ต้อง login, กรอก form, navigate ผ่าน UI จริง
  • ตรวจ web app ว่า render ถูกไหม
  • Automate repetitive web tasks ที่ไม่มี API

3. terminal toolset: รัน command ในเครื่องจริง

เครื่องมือ:

  • terminal: รัน shell command, script
  • process: manage background processes

ใช้สำหรับ:

  • รัน Python, Node.js, bash script
  • ตรวจ log file, disk usage
  • Build, deploy, git operations
  • Automate system tasks

ข้อควรระวัง: terminal tool มีสิทธิ์เต็มในเครื่อง ควร review command ที่ destructive ก่อนอนุมัติ (Hermes ถามก่อน run ในโหมด default)

4. file toolset: อ่านเขียนค้นหาไฟล์

เครื่องมือ:

  • read_file: อ่านไฟล์ text พร้อม line number
  • write_file: เขียนหรือสร้างไฟล์ใหม่
  • patch: แก้ไขเฉพาะส่วน (find-and-replace อัจฉริยะ)
  • search_files: ค้นหาใน file content หรือชื่อไฟล์

ใช้สำหรับ:

  • อ่านและ summarize เอกสาร, CSV, Markdown
  • เขียนรายงาน, draft เนื้อหา, update config
  • ค้นหา pattern ใน codebase หรือ log

5. vision toolset: วิเคราะห์ภาพ

เครื่องมือ: vision_analyze

ใช้สำหรับ:

  • วิเคราะห์ screenshot, diagram, chart
  • อ่านข้อมูลจากใบเสร็จ, invoice ที่เป็นรูปภาพ
  • QA visual output ของ app หรือ web

6. image_gen toolset: สร้างรูปจาก prompt

เครื่องมือ: image_generate

ใช้สำหรับ:

  • สร้าง cover, thumbnail, illustration
  • Gen asset สำหรับ content โดยไม่ต้องออกจาก session

7. tts toolset: Text-to-Speech

เครื่องมือ: text_to_speech

ใช้สำหรับ:

  • ฟัง summary หรือรายงานแทนการอ่าน
  • ส่ง voice message ผ่าน messaging gateway
  • Provider: Edge TTS (ฟรี), ElevenLabs, OpenAI, Kokoro

8. cronjob toolset: ตั้งเวลาให้ agent ทำงานอัตโนมัติ

เครื่องมือ: cronjob (action: create, list, pause, resume, remove)

ตัวอย่างที่ใช้บ่อย:

  • รายงานยอดขายทุกเช้า 8 โมง
  • สแกนข่าว industry ทุกวัน
  • ส่ง digest สรุปประจำสัปดาห์ผ่าน Telegram

Cron jobs run ใน fresh session แยกกัน ไม่ผูกกับ session ปัจจุบัน

9. MCP (Model Context Protocol): ต่อกับ External Tools

MCP เป็น standard protocol ที่ให้ Hermes ต่อกับ service ภายนอกที่ไม่ได้อยู่ใน built-in toolset

ตัวอย่าง MCP servers ที่ใช้บ่อย:

  • GitHub: create issue, review PR, manage repos
  • Notion / Airtable: read/write database
  • Google Workspace: Gmail, Calendar, Drive, Sheets
  • Stripe: check payments, create invoices
  • Custom internal API: endpoint ของบริษัทที่สร้างเอง

MCP tools ขึ้นต้นด้วย mcp_ ใน session เช่น mcp_github_create_issue

Setup: hermes mcp add --command

สอบถามข้อมูล
Scroll to Top