Deep dive 2026 04 15 gemini 31 flash tts

เนื้อหาในบทความนี้

Gemini 3.1 Flash TTS: ควบคุมเสียง AI ระดับ “ผู้กำกับ” ได้แล้ว

หัวข้อที่น่าสนใจ: TTS ตัวใหม่จาก Google มาพร้อม Audio Tags — วิธีควบคุมน้ำเสียง AI ด้วยคำสั่งภาษาธรรมชาติที่ทำให้ AI พูดได้แบบที่เราต้องการจริงๆ

—

TL;DR

Gemini 3.1 Flash TTS เปิดตัวแล้ววันนี้ พร้อมฟีเจอร์ Audio Tags สำหรับควบคุมเสียง AI แบบละเอียด
ได้คะแนน 1211 Elo บน Artificial Analysis TTS Leaderboard ติดอยู่ใน “most attractive quadrant” ด้านคุณภาพต่อราคา
รองรับ 70+ ภาษา มี SynthID watermark
ลองได้แล้วใน Google AI Studio, Vertex AI, และ Google Vids

—

TTS แบบเดิมมันจำกัดตรงไหน

ถ้าเคยใช้ TTS ทั่วไป — ไม่ว่าจะ Azure, Polly, หรือแม้แต่ Gemini เวอร์ชันก่อน — สิ่งที่เราปรับได้มักจบแค่:

เลือกเสียงผู้ชายหรือผู้หญิง
ปรับความเร็วเร็ว-ช้า
เลือกน้ำเสียงจาก preset ที่มีให้เลือก 5-10 แบบ

พอเทียบกับ AI ที่พูดเองได้อย่างมีชีวิตชีวา — โทนเสียงเปลี่ยนระหว่างประโยค, อารมณ์แน่นอนตลอดทั้งย่อหน้า, จังหวะหนัก-เบาตามความหมาย — TTS แบบเดิมฟังดูเป็นหุ่นยนต์สิ้นดี

นี่คือปัญหาที่ Audio Tags ออกแบบมาตอบ

—

Audio Tags คืออะไร

Audio Tags เป็นวิธีการฝังคำสั่งภาษาธรรมชาติลงใน text input เพื่อบอก AI ว่า “ตอนนี้พูดแบบนี้นะ”

ไม่ใช่การตั้งค่าซับซ้อน ไม่ใช่ JSON parameter ไม่ใช่ pitch/speed ratio — แค่เขียนสิ่งที่ต้องการลงไปในประโยคเดียวกัน

ตัวอย่างที่ Google ยกมา:

[เสียงสนทนาขี้เล่น, พูดเร็วขึ้น] ถ้ามึงอยากรู้เรื่อง AI 
[เสียงจริงจังขึ้น, พูсеช้าลง] ก็ฟังทุกครั้งเลยสิ

จบ — ประโยคเดียวกัน เปลี่ยนอารมณ์กลางคัดคำได้เลย

Google แบ่งการควบคุมออกเป็น 3 ระดับ:

1. Scene Direction — กำหนดบริบทฉาก เช่น “กำลังสนทนาในห้องประชุม” หรือ “พูดผ่านวิดีโอคอล” เพื่อให้ AI ตั้งโทนเสียงได้เหมาะสม

2. Speaker-Level Specificity — กำหนด Audio Profile ให้แต่ละตัวละคร แล้วใช้ Director’s Notes ปรับ pace, tone, accent ได้ทั้งระดับตัวละครและระดับประโยค

3. Seamless Export — ตั้งค่าเสียดแท้งแล้ว export เป็น Gemini API code เพื่อเอาไปใช้ซ้ำข้ามโปรเจกต์ได้เลย

—

ตัวเลขที่น่าสนใจ

Artificial Analysis TTS Leaderboard เป็น benchmark ที่รวบรวมความชอบจากมนุษย์หลายพันคนแบบ blind test

Gemini 3.1 Flash TTS ได้ 1211 Elo บน leaderboard นี้ — สูงพอจะติดอยู่ใน “most attractive quadrant” ซึ่งหมายความว่าทั้งคุณภาพเสียงและราคาอยู่ในจุดที่คุ้มค่าที่สุด

สำหรับ context: leaderboard นี้มี TTS models จาก OpenAI (GPT-4o audio), ElevenLabs, Azure, Meta, และอื่นๆ อีกหลายสิบราย — การติด top quadrant บอกว่า Gemini ไม่ได้แค่ “ใช้ได้” แต่ “ใช้ได้ดีในราคาที่เหมาะสม”

—

70+ ภาษา พร้อม Thai Support

Google ชี้ชัดว่า model นี้ทำ core optimization สำหรับ “major markets” — และด้วยการรองรับ 70+ ภาษา รวมถึง Thai ที่มีอยู่ในชุดภาษาหลัก ทำให้นี่เป็น TTS ที่น่าสนใจสำหรับทีมที่ทำ product ในตลาด SEA

ข้อจำกัดเดิมของ TTS Thai คือเสียงมักจะ “อ่านได้” แต่ “ฟังไม่ได้เรื่อง” ในบริบทที่ต้องการความเป็นธรรมชาติ — โดยเฉพาะ content ที่ต้องมีน้ำเสียง, อารมณ์, หรือจังหวะที่เหมาะสมกับ Thai context

Audio Tags อาจช่วยแก้ปัญหานี้ได้ โดยให้ developer กำหนดได้ว่า “พูดแบบ Thai casual” หรือ “พูดแบบ news presenter” ตรงๆ ใน text input

—

SynthID Watermark: สำคัญในยุค Deepfake Audio

ทุก audio ที่ generate จาก Gemini 3.1 Flash TTS จะมี SynthID watermark ฝังอยู่ใน audio โดยไม่ส่งผลต่อคุณภาพเสียง — ทำให้สามารถ detect ได้ว่าเสียงนี้เป็น AI-generated หรือไม่

ในยุคที่ deepfake audio กลายเป็นปัญหาจริงในหลายอุตสาหกรรม — โดยเฉพาะ news, finance, และ legal — การมี watermark ที่ track ได้ถือว่าเป็น standard ที่ Google ตั้งใจทำให้เป็น default สำหรับ TTS product ทุกตัว

—

ใครควรลอง

Developer ที่สร้าง voice app — Audio Tags ทำให้ AI character voices ทำได้แบบเดียวกับ game voice direction จริงๆ

Content creator ที่ทำ video/podcast — แทนที่จะต้อง record เสียงเองทุกครั้ง หรือจ้าง voice actor สำหรับทุกเวอร์ชัน ลอง generate แล้วปรับด้วย Audio Tags

ทีมที่ทำ accessibility tool — คนที่ต้องการ navigation, reading, หรือ communication aid ที่มีน้ำเสียงเป็นธรรมชาติมากขึ้น

Product ที่ต้องการ localized voice — 70+ ภาษาหมายความว่าสร้าง voice experience เดียวกันแต่ปรับให้เหมาะกับแต่ละตลาดได้

—

ลองได้แล้ววันนี้

Developer: Google AI Studio (generate-speech) และ Gemini API (preview)
Enterprise: Vertex AI (GA preview)
Workspace users: Google Vids

ทั้งหมดเป็น preview ในตอนนี้ แต่ Google ปล่อยออกมาเร็วกว่าที่หลายคนคาด — บ่งบอกว่า AI speech race กำลังเข้มข้นขึ้นจริงๆ

—

มองไปข้างหน้า

สิ่งที่น่าจับตาคือ API export feature — เมื่อ developer สามารถ “กำหนดเสียง” แล้ว export เป็น code เพื่อใช้ซ้ำได้ มันหมายความว่า:

Voice brand consistency ข้าม platforms จะทำได้ง่ายขึ้น
Voice style library สำหรับ product จะเริ่มเกิดขึ้น
และอาจถึงขั้นมี “voice API marketplace” ที่คนแชร์ voice styles กันได้

TTS ไม่ใช่เรื่องใหม่ แต่ Audio Tags ทำให้มันเปลี่ยนจาก “เครื่องอ่านข้อความ” เป็น “เครื่องสร้างประสบการณ์เสียง” ที่ developer ควบคุมได้จริง

—

FAQ

ถาม: Gemini 3.1 Flash TTS ต่างจาก 2.5 Flash TTS ยังไง? ตอบ: หลักๆ คือ Audio Tags — ความสามารถในการควบคุมน้ำเสียง, จังหวะ, สไตล์ระดับประโยคด้วยคำสั่งภาษาธรรมชาติ ที่ 2.5 ไม่มี

ถาม: ใช้ฟรีไหม? ตอบ: อยู่ในช่วง preview — developer ใช้ผ่าน Gemini API และ Google AI Studio ได้ ส่วนราคาเมื่อ GA แล้วยังไม่ประกาศชัด

ถาม: Thai voice quality เป็นยังไง? ตอบ: ยังต้องรอว่าในการใช้งานจริง Thai output จะฟังเป็นธรรมชาติแค่ไหน โดยเฉพาะในบริบทที่ต้องการ nuance เช่น ข่าว หรือ content ที่ต้องการอารมณ์

ถาม: SynthID watermark detect ได้แค่ไหน? ตอบ: Google บอกว่า watermark ทำงานโดยฝัง signal ลงใน audio โดยไม่กระทบคุณภาพ แต่ยังไม่มี public tool สำหรับ developer ที่จะ check watermark ได้เอง

อ่านแล้ว: 152

Gemini 3.1 Flash TTS: ควบคุมเสียง AI ระดับ ‘ผู้กำกับ’ ได้แล้ว