
Gemini 3.1 Flash TTS: ควบคุมเสียง AI ระดับ “ผู้กำกับ” ได้แล้ว
หัวข้อที่น่าสนใจ: TTS ตัวใหม่จาก Google มาพร้อม Audio Tags — วิธีควบคุมน้ำเสียง AI ด้วยคำสั่งภาษาธรรมชาติที่ทำให้ AI พูดได้แบบที่เราต้องการจริงๆ
—
TL;DR
- Gemini 3.1 Flash TTS เปิดตัวแล้ววันนี้ พร้อมฟีเจอร์ Audio Tags สำหรับควบคุมเสียง AI แบบละเอียด
- ได้คะแนน 1211 Elo บน Artificial Analysis TTS Leaderboard ติดอยู่ใน “most attractive quadrant” ด้านคุณภาพต่อราคา
- รองรับ 70+ ภาษา มี SynthID watermark
- ลองได้แล้วใน Google AI Studio, Vertex AI, และ Google Vids
—
TTS แบบเดิมมันจำกัดตรงไหน
ถ้าเคยใช้ TTS ทั่วไป — ไม่ว่าจะ Azure, Polly, หรือแม้แต่ Gemini เวอร์ชันก่อน — สิ่งที่เราปรับได้มักจบแค่:
- เลือกเสียงผู้ชายหรือผู้หญิง
- ปรับความเร็วเร็ว-ช้า
- เลือกน้ำเสียงจาก preset ที่มีให้เลือก 5-10 แบบ
พอเทียบกับ AI ที่พูดเองได้อย่างมีชีวิตชีวา — โทนเสียงเปลี่ยนระหว่างประโยค, อารมณ์แน่นอนตลอดทั้งย่อหน้า, จังหวะหนัก-เบาตามความหมาย — TTS แบบเดิมฟังดูเป็นหุ่นยนต์สิ้นดี
นี่คือปัญหาที่ Audio Tags ออกแบบมาตอบ
—
Audio Tags คืออะไร
Audio Tags เป็นวิธีการฝังคำสั่งภาษาธรรมชาติลงใน text input เพื่อบอก AI ว่า “ตอนนี้พูดแบบนี้นะ”
ไม่ใช่การตั้งค่าซับซ้อน ไม่ใช่ JSON parameter ไม่ใช่ pitch/speed ratio — แค่เขียนสิ่งที่ต้องการลงไปในประโยคเดียวกัน
ตัวอย่างที่ Google ยกมา:
[เสียงสนทนาขี้เล่น, พูดเร็วขึ้น] ถ้ามึงอยากรู้เรื่อง AI
[เสียงจริงจังขึ้น, พูсеช้าลง] ก็ฟังทุกครั้งเลยสิ
จบ — ประโยคเดียวกัน เปลี่ยนอารมณ์กลางคัดคำได้เลย
Google แบ่งการควบคุมออกเป็น 3 ระดับ:
1. Scene Direction — กำหนดบริบทฉาก เช่น “กำลังสนทนาในห้องประชุม” หรือ “พูดผ่านวิดีโอคอล” เพื่อให้ AI ตั้งโทนเสียงได้เหมาะสม
2. Speaker-Level Specificity — กำหนด Audio Profile ให้แต่ละตัวละคร แล้วใช้ Director’s Notes ปรับ pace, tone, accent ได้ทั้งระดับตัวละครและระดับประโยค
3. Seamless Export — ตั้งค่าเสียดแท้งแล้ว export เป็น Gemini API code เพื่อเอาไปใช้ซ้ำข้ามโปรเจกต์ได้เลย
—
ตัวเลขที่น่าสนใจ
Artificial Analysis TTS Leaderboard เป็น benchmark ที่รวบรวมความชอบจากมนุษย์หลายพันคนแบบ blind test
Gemini 3.1 Flash TTS ได้ 1211 Elo บน leaderboard นี้ — สูงพอจะติดอยู่ใน “most attractive quadrant” ซึ่งหมายความว่าทั้งคุณภาพเสียงและราคาอยู่ในจุดที่คุ้มค่าที่สุด
สำหรับ context: leaderboard นี้มี TTS models จาก OpenAI (GPT-4o audio), ElevenLabs, Azure, Meta, และอื่นๆ อีกหลายสิบราย — การติด top quadrant บอกว่า Gemini ไม่ได้แค่ “ใช้ได้” แต่ “ใช้ได้ดีในราคาที่เหมาะสม”
—
70+ ภาษา พร้อม Thai Support
Google ชี้ชัดว่า model นี้ทำ core optimization สำหรับ “major markets” — และด้วยการรองรับ 70+ ภาษา รวมถึง Thai ที่มีอยู่ในชุดภาษาหลัก ทำให้นี่เป็น TTS ที่น่าสนใจสำหรับทีมที่ทำ product ในตลาด SEA
ข้อจำกัดเดิมของ TTS Thai คือเสียงมักจะ “อ่านได้” แต่ “ฟังไม่ได้เรื่อง” ในบริบทที่ต้องการความเป็นธรรมชาติ — โดยเฉพาะ content ที่ต้องมีน้ำเสียง, อารมณ์, หรือจังหวะที่เหมาะสมกับ Thai context
Audio Tags อาจช่วยแก้ปัญหานี้ได้ โดยให้ developer กำหนดได้ว่า “พูดแบบ Thai casual” หรือ “พูดแบบ news presenter” ตรงๆ ใน text input
—
SynthID Watermark: สำคัญในยุค Deepfake Audio
ทุก audio ที่ generate จาก Gemini 3.1 Flash TTS จะมี SynthID watermark ฝังอยู่ใน audio โดยไม่ส่งผลต่อคุณภาพเสียง — ทำให้สามารถ detect ได้ว่าเสียงนี้เป็น AI-generated หรือไม่
ในยุคที่ deepfake audio กลายเป็นปัญหาจริงในหลายอุตสาหกรรม — โดยเฉพาะ news, finance, และ legal — การมี watermark ที่ track ได้ถือว่าเป็น standard ที่ Google ตั้งใจทำให้เป็น default สำหรับ TTS product ทุกตัว
—
ใครควรลอง
Developer ที่สร้าง voice app — Audio Tags ทำให้ AI character voices ทำได้แบบเดียวกับ game voice direction จริงๆ
Content creator ที่ทำ video/podcast — แทนที่จะต้อง record เสียงเองทุกครั้ง หรือจ้าง voice actor สำหรับทุกเวอร์ชัน ลอง generate แล้วปรับด้วย Audio Tags
ทีมที่ทำ accessibility tool — คนที่ต้องการ navigation, reading, หรือ communication aid ที่มีน้ำเสียงเป็นธรรมชาติมากขึ้น
Product ที่ต้องการ localized voice — 70+ ภาษาหมายความว่าสร้าง voice experience เดียวกันแต่ปรับให้เหมาะกับแต่ละตลาดได้
—
ลองได้แล้ววันนี้
- Developer: Google AI Studio (generate-speech) และ Gemini API (preview)
- Enterprise: Vertex AI (GA preview)
- Workspace users: Google Vids
ทั้งหมดเป็น preview ในตอนนี้ แต่ Google ปล่อยออกมาเร็วกว่าที่หลายคนคาด — บ่งบอกว่า AI speech race กำลังเข้มข้นขึ้นจริงๆ
—
มองไปข้างหน้า
สิ่งที่น่าจับตาคือ API export feature — เมื่อ developer สามารถ “กำหนดเสียง” แล้ว export เป็น code เพื่อใช้ซ้ำได้ มันหมายความว่า:
- Voice brand consistency ข้าม platforms จะทำได้ง่ายขึ้น
- Voice style library สำหรับ product จะเริ่มเกิดขึ้น
- และอาจถึงขั้นมี “voice API marketplace” ที่คนแชร์ voice styles กันได้
TTS ไม่ใช่เรื่องใหม่ แต่ Audio Tags ทำให้มันเปลี่ยนจาก “เครื่องอ่านข้อความ” เป็น “เครื่องสร้างประสบการณ์เสียง” ที่ developer ควบคุมได้จริง
—
FAQ
ถาม: Gemini 3.1 Flash TTS ต่างจาก 2.5 Flash TTS ยังไง? ตอบ: หลักๆ คือ Audio Tags — ความสามารถในการควบคุมน้ำเสียง, จังหวะ, สไตล์ระดับประโยคด้วยคำสั่งภาษาธรรมชาติ ที่ 2.5 ไม่มี
ถาม: ใช้ฟรีไหม? ตอบ: อยู่ในช่วง preview — developer ใช้ผ่าน Gemini API และ Google AI Studio ได้ ส่วนราคาเมื่อ GA แล้วยังไม่ประกาศชัด
ถาม: Thai voice quality เป็นยังไง? ตอบ: ยังต้องรอว่าในการใช้งานจริง Thai output จะฟังเป็นธรรมชาติแค่ไหน โดยเฉพาะในบริบทที่ต้องการ nuance เช่น ข่าว หรือ content ที่ต้องการอารมณ์
ถาม: SynthID watermark detect ได้แค่ไหน? ตอบ: Google บอกว่า watermark ทำงานโดยฝัง signal ลงใน audio โดยไม่กระทบคุณภาพ แต่ยังไม่มี public tool สำหรับ developer ที่จะ check watermark ได้เอง
