Gemini 3.1 Flash TTS: ควบคุมเสียง AI ระดับ ‘ผู้กำกับ’ ได้แล้ว

Gemini 3.1 Flash TTS: ควบคุมเสียง AI ระดับ “ผู้กำกับ” ได้แล้ว

หัวข้อที่น่าสนใจ: TTS ตัวใหม่จาก Google มาพร้อม Audio Tags — วิธีควบคุมน้ำเสียง AI ด้วยคำสั่งภาษาธรรมชาติที่ทำให้ AI พูดได้แบบที่เราต้องการจริงๆ

TL;DR

  • Gemini 3.1 Flash TTS เปิดตัวแล้ววันนี้ พร้อมฟีเจอร์ Audio Tags สำหรับควบคุมเสียง AI แบบละเอียด
  • ได้คะแนน 1211 Elo บน Artificial Analysis TTS Leaderboard ติดอยู่ใน “most attractive quadrant” ด้านคุณภาพต่อราคา
  • รองรับ 70+ ภาษา มี SynthID watermark
  • ลองได้แล้วใน Google AI Studio, Vertex AI, และ Google Vids

TTS แบบเดิมมันจำกัดตรงไหน

ถ้าเคยใช้ TTS ทั่วไป — ไม่ว่าจะ Azure, Polly, หรือแม้แต่ Gemini เวอร์ชันก่อน — สิ่งที่เราปรับได้มักจบแค่:

  • เลือกเสียงผู้ชายหรือผู้หญิง
  • ปรับความเร็วเร็ว-ช้า
  • เลือกน้ำเสียงจาก preset ที่มีให้เลือก 5-10 แบบ

พอเทียบกับ AI ที่พูดเองได้อย่างมีชีวิตชีวา — โทนเสียงเปลี่ยนระหว่างประโยค, อารมณ์แน่นอนตลอดทั้งย่อหน้า, จังหวะหนัก-เบาตามความหมาย — TTS แบบเดิมฟังดูเป็นหุ่นยนต์สิ้นดี

นี่คือปัญหาที่ Audio Tags ออกแบบมาตอบ

Audio Tags คืออะไร

Audio Tags เป็นวิธีการฝังคำสั่งภาษาธรรมชาติลงใน text input เพื่อบอก AI ว่า “ตอนนี้พูดแบบนี้นะ”

ไม่ใช่การตั้งค่าซับซ้อน ไม่ใช่ JSON parameter ไม่ใช่ pitch/speed ratio — แค่เขียนสิ่งที่ต้องการลงไปในประโยคเดียวกัน

ตัวอย่างที่ Google ยกมา:

[เสียงสนทนาขี้เล่น, พูดเร็วขึ้น] ถ้ามึงอยากรู้เรื่อง AI 
[เสียงจริงจังขึ้น, พูсеช้าลง] ก็ฟังทุกครั้งเลยสิ

จบ — ประโยคเดียวกัน เปลี่ยนอารมณ์กลางคัดคำได้เลย

Google แบ่งการควบคุมออกเป็น 3 ระดับ:

1. Scene Direction — กำหนดบริบทฉาก เช่น “กำลังสนทนาในห้องประชุม” หรือ “พูดผ่านวิดีโอคอล” เพื่อให้ AI ตั้งโทนเสียงได้เหมาะสม

2. Speaker-Level Specificity — กำหนด Audio Profile ให้แต่ละตัวละคร แล้วใช้ Director’s Notes ปรับ pace, tone, accent ได้ทั้งระดับตัวละครและระดับประโยค

3. Seamless Export — ตั้งค่าเสียดแท้งแล้ว export เป็น Gemini API code เพื่อเอาไปใช้ซ้ำข้ามโปรเจกต์ได้เลย

ตัวเลขที่น่าสนใจ

Artificial Analysis TTS Leaderboard เป็น benchmark ที่รวบรวมความชอบจากมนุษย์หลายพันคนแบบ blind test

Gemini 3.1 Flash TTS ได้ 1211 Elo บน leaderboard นี้ — สูงพอจะติดอยู่ใน “most attractive quadrant” ซึ่งหมายความว่าทั้งคุณภาพเสียงและราคาอยู่ในจุดที่คุ้มค่าที่สุด

สำหรับ context: leaderboard นี้มี TTS models จาก OpenAI (GPT-4o audio), ElevenLabs, Azure, Meta, และอื่นๆ อีกหลายสิบราย — การติด top quadrant บอกว่า Gemini ไม่ได้แค่ “ใช้ได้” แต่ “ใช้ได้ดีในราคาที่เหมาะสม”

70+ ภาษา พร้อม Thai Support

Google ชี้ชัดว่า model นี้ทำ core optimization สำหรับ “major markets” — และด้วยการรองรับ 70+ ภาษา รวมถึง Thai ที่มีอยู่ในชุดภาษาหลัก ทำให้นี่เป็น TTS ที่น่าสนใจสำหรับทีมที่ทำ product ในตลาด SEA

ข้อจำกัดเดิมของ TTS Thai คือเสียงมักจะ “อ่านได้” แต่ “ฟังไม่ได้เรื่อง” ในบริบทที่ต้องการความเป็นธรรมชาติ — โดยเฉพาะ content ที่ต้องมีน้ำเสียง, อารมณ์, หรือจังหวะที่เหมาะสมกับ Thai context

Audio Tags อาจช่วยแก้ปัญหานี้ได้ โดยให้ developer กำหนดได้ว่า “พูดแบบ Thai casual” หรือ “พูดแบบ news presenter” ตรงๆ ใน text input

SynthID Watermark: สำคัญในยุค Deepfake Audio

ทุก audio ที่ generate จาก Gemini 3.1 Flash TTS จะมี SynthID watermark ฝังอยู่ใน audio โดยไม่ส่งผลต่อคุณภาพเสียง — ทำให้สามารถ detect ได้ว่าเสียงนี้เป็น AI-generated หรือไม่

ในยุคที่ deepfake audio กลายเป็นปัญหาจริงในหลายอุตสาหกรรม — โดยเฉพาะ news, finance, และ legal — การมี watermark ที่ track ได้ถือว่าเป็น standard ที่ Google ตั้งใจทำให้เป็น default สำหรับ TTS product ทุกตัว

ใครควรลอง

Developer ที่สร้าง voice app — Audio Tags ทำให้ AI character voices ทำได้แบบเดียวกับ game voice direction จริงๆ

Content creator ที่ทำ video/podcast — แทนที่จะต้อง record เสียงเองทุกครั้ง หรือจ้าง voice actor สำหรับทุกเวอร์ชัน ลอง generate แล้วปรับด้วย Audio Tags

ทีมที่ทำ accessibility tool — คนที่ต้องการ navigation, reading, หรือ communication aid ที่มีน้ำเสียงเป็นธรรมชาติมากขึ้น

Product ที่ต้องการ localized voice — 70+ ภาษาหมายความว่าสร้าง voice experience เดียวกันแต่ปรับให้เหมาะกับแต่ละตลาดได้

ลองได้แล้ววันนี้

  • Developer: Google AI Studio (generate-speech) และ Gemini API (preview)
  • Enterprise: Vertex AI (GA preview)
  • Workspace users: Google Vids

ทั้งหมดเป็น preview ในตอนนี้ แต่ Google ปล่อยออกมาเร็วกว่าที่หลายคนคาด — บ่งบอกว่า AI speech race กำลังเข้มข้นขึ้นจริงๆ

มองไปข้างหน้า

สิ่งที่น่าจับตาคือ API export feature — เมื่อ developer สามารถ “กำหนดเสียง” แล้ว export เป็น code เพื่อใช้ซ้ำได้ มันหมายความว่า:

  • Voice brand consistency ข้าม platforms จะทำได้ง่ายขึ้น
  • Voice style library สำหรับ product จะเริ่มเกิดขึ้น
  • และอาจถึงขั้นมี “voice API marketplace” ที่คนแชร์ voice styles กันได้

TTS ไม่ใช่เรื่องใหม่ แต่ Audio Tags ทำให้มันเปลี่ยนจาก “เครื่องอ่านข้อความ” เป็น “เครื่องสร้างประสบการณ์เสียง” ที่ developer ควบคุมได้จริง

FAQ

ถาม: Gemini 3.1 Flash TTS ต่างจาก 2.5 Flash TTS ยังไง? ตอบ: หลักๆ คือ Audio Tags — ความสามารถในการควบคุมน้ำเสียง, จังหวะ, สไตล์ระดับประโยคด้วยคำสั่งภาษาธรรมชาติ ที่ 2.5 ไม่มี

ถาม: ใช้ฟรีไหม? ตอบ: อยู่ในช่วง preview — developer ใช้ผ่าน Gemini API และ Google AI Studio ได้ ส่วนราคาเมื่อ GA แล้วยังไม่ประกาศชัด

ถาม: Thai voice quality เป็นยังไง? ตอบ: ยังต้องรอว่าในการใช้งานจริง Thai output จะฟังเป็นธรรมชาติแค่ไหน โดยเฉพาะในบริบทที่ต้องการ nuance เช่น ข่าว หรือ content ที่ต้องการอารมณ์

ถาม: SynthID watermark detect ได้แค่ไหน? ตอบ: Google บอกว่า watermark ทำงานโดยฝัง signal ลงใน audio โดยไม่กระทบคุณภาพ แต่ยังไม่มี public tool สำหรับ developer ที่จะ check watermark ได้เอง

Leave a Comment

สอบถามข้อมูล
Scroll to Top