
TL;DR
GitHub ประกาศว่า ตั้งแต่ 24 เมษายน 2026 เป็นต้นไป ข้อมูลการใช้งาน GitHub Copilot Free, Pro และ Pro+ เช่น inputs, outputs, code snippets และ associated context จะถูกใช้เพื่อฝึกและปรับปรุง AI models ถ้าผู้ใช้ไม่ได้ opt out
Copilot Business และ Copilot Enterprise ไม่ถูกกระทบ
ถ้ามองผิวเผิน ข่าวนี้เหมือน privacy update ธรรมดา แต่ถ้ามองให้ลึก มันคือสัญญาณใหม่ของตลาด AI coding
GitHub กำลังสร้าง data flywheel จากผู้ใช้บุคคล พร้อมกับขาย trust boundary ให้ลูกค้าองค์กรไปพร้อมกัน
ประเด็นสำคัญไม่ใช่แค่ “GitHub จะเอาข้อมูลไป train ไหม” แต่คือ AI coding market กำลังเข้าสู่ช่วงที่
- data quality สำคัญมากขึ้น
- trust กลายเป็น feature ระดับ premium
- และ product strategy เริ่มผูกกับ privacy architecture โดยตรง
—
What changed, และทำไมมันไม่ใช่ update เล็กๆ
จากประกาศอย่างเป็นทางการของ GitHub เมื่อ 25 มีนาคม 2026 ตั้งแต่ 24 เมษายน เป็นต้นไป GitHub จะเริ่มใช้ interaction data จากผู้ใช้ Copilot Free, Pro และ Pro+ เพื่อ train และ improve โมเดล หากผู้ใช้ไม่ได้ปิดการใช้งานใน settings
ข้อมูลที่อาจถูกใช้รวมถึง
- outputs ที่ผู้ใช้ยอมรับหรือแก้ไข
- inputs ที่ส่งให้ Copilot
- code snippets ที่แสดงต่อ model
- code context รอบ cursor
- comments และ documentation ที่ผู้ใช้เขียน
- file names, repository structure และ navigation patterns
- การใช้งาน feature ต่างๆ เช่น chat และ inline suggestions
- feedback ต่อ suggestion
สิ่งที่ GitHub ย้ำคือ
- Copilot Business และ Copilot Enterprise ไม่ถูกกระทบ
- ถ้าเคย opt out ไว้ก่อนหน้า preference เดิมจะถูกเก็บต่อ
- private repository content “at rest” จะไม่ถูกเอาไป train
- แต่ code snippets ที่ถูกส่งเข้า Copilot ระหว่าง active session อาจอยู่ในขอบเขตของ interaction data ได้ ถ้าผู้ใช้เปิด setting ไว้
นี่คือจุดที่หลายคนอาจอ่านข้าม แต่จริงๆ มันคือหัวใจของเรื่องทั้งหมด
—
1) GitHub ไม่ได้แค่เปลี่ยน privacy setting, แต่มันกำลังเปลี่ยนเชื้อเพลิงของ Copilot
การพัฒนา AI coding tools รอบแรกอาศัย
- public code
- synthetic data
- curated examples
- benchmark tuning
แต่พอ AI coding tools เริ่มถูกใช้จริงในงาน production ปัญหาใหม่ก็ชัดขึ้น
model ที่เก่งบน benchmark ไม่ได้แปลว่าเก่งใน workflow จริงของ developer เสมอไป
สิ่งที่ model ต้องการเพื่อเก่งขึ้นในโลกจริงคือข้อมูลแบบนี้
- คน prompt ยังไงตอนแก้ bug จริง
- คน accept หรือ reject suggestion แบบไหน
- context แบบไหนทำให้ code suggestion ดีขึ้น
- interaction pattern แบบไหนบอกว่า user พอใจหรือไม่พอใจ
- โค้ดตรงไหนใน flow งานจริงที่ model ยังช่วยได้ไม่พอ
พูดง่ายๆ คือ ถ้าอยากสร้าง Copilot รุ่นถัดไปให้ดีขึ้นจริง GitHub ต้องมี real-world developer interaction data
ดังนั้นนโยบายนี้จึงไม่ใช่แค่เรื่องกฎหมายหรือ privacy notice แต่มันคือการประกาศว่า GitHub จะเอา data loop นี้มาเป็น competitive advantage โดยตรง
—
2) จุดที่แหลมที่สุดของข่าวนี้คือ GitHub แยก “บุคคล” กับ “องค์กร” ออกจากกันชัดมาก
GitHub บอกชัดว่า update นี้กระทบแค่
- Copilot Free
- Copilot Pro
- Copilot Pro+
แต่ ไม่กระทบ
- Copilot Business
- Copilot Enterprise
นี่ไม่ใช่แค่ข้อยกเว้นทาง policy แต่มันสะท้อน product strategy อย่างชัดเจน
GitHub กำลังสร้างตลาด 2 ชั้นใน product เดียว
ชั้นที่ 1: Individual tier = data flywheel
ผู้ใช้บุคคลได้ของที่เข้าถึงง่ายกว่า ราคายืดหยุ่นกว่า แต่ถ้าไม่ opt out interaction data จะช่วย feed ระบบให้ model ดีขึ้น
ชั้นที่ 2: Enterprise tier = trust boundary
องค์กรไม่ได้จ่ายแพงขึ้นแค่เพื่อ feature เพิ่ม แต่จ่ายเพื่อได้ขอบเขตที่ชัดว่า interaction data จะไม่ถูกเอาไปใช้ฝึก model
นี่คือประเด็นสำคัญมาก
เพราะมันแปลว่า ในยุค AI coding tools, “trust” ไม่ใช่เอกสารแนบท้ายอีกแล้ว แต่มันคือส่วนหนึ่งของ product packaging
—
3) Enterprise plan กำลังขายอะไรอยู่กันแน่?
หลายคนคิดว่า plan องค์กรขายสิ่งเหล่านี้
- admin control
- security policy
- seat management
- audit log
- compliance features
ทั้งหมดนี้จริง
แต่ข่าวนี้ทำให้เห็นอีกชั้นหนึ่งว่า enterprise plan กำลังขายสิ่งที่สำคัญมากขึ้นเรื่อยๆ คือ
ความมั่นใจว่า interaction ของทีมจะไม่ถูกเอาไปเป็น training fuel
นี่สำคัญมากสำหรับบริษัทที่ทำงานกับ
- proprietary code
- client code
- regulated environments
- internal architecture decisions
- unreleased products
เพราะต่อให้ GitHub ย้ำว่าไม่ได้เอา private repository content at rest ไป train องค์กรจำนวนมากก็ยังไม่ได้กังวลแค่ data at rest แต่กังวล data in motion และ developer interaction trail ด้วย
เมื่อมองแบบนี้ จะเห็นว่า GitHub ไม่ได้ขายแค่ “AI for coding” แต่มันกำลังขาย “AI for coding with clear data boundaries”
และนั่นเป็น value ที่องค์กรจำนวนมากยอมจ่าย
—
4) ข่าวนี้กำลังบอกเราว่า data จะกลายเป็น moat สำคัญของ AI coding tools
ในตลาด AI assistant ทั่วไป หลายคนชอบถกกันว่าเจ้าไหนใช้ model อะไร
แต่ในตลาด AI coding จริงๆ สิ่งที่จะสำคัญขึ้นเรื่อยๆ คือ
- ใครมี developer distribution เยอะพอ
- ใครเข้าถึง interaction data คุณภาพสูงได้มากพอ
- ใครเอา data นั้นกลับไป improve model ได้เร็วพอ
GitHub มีแต้มต่อมหาศาลตรงนี้ เพราะมันมีทั้ง
- IDE integrations
- repo context
- PR workflow
- issue flow
- chat interaction
- acceptance / rejection signal
- feedback loop จากผู้ใช้จริงจำนวนมาก
ดังนั้นการประกาศนโยบายนี้ เท่ากับเป็นการบอกตลาดว่า
GitHub ไม่ได้อยากเป็นแค่หน้าบ้านของ Copilot แต่มันอยากเป็นเครื่องจักรเก็บ feedback loop ของ AI coding ทั้งระบบ
และถ้า data loop นี้ทำงานจริง มันจะกลายเป็น moat ที่คู่แข่งตามยากกว่าการไล่ benchmark กันเฉยๆ
—
5) แต่นี่ก็ไม่ใช่เรื่องของ GitHub ฝั่งเดียว, มันคือ trade-off ที่ผู้ใช้ต้องเลือก
GitHub พยายามเล่าเรื่องนี้ในมุมบวกว่า การใช้ real-world interaction data จะช่วยให้ model ดีขึ้นสำหรับทุกคน
ซึ่งก็มีเหตุผลครับ
แต่จากมุมผู้ใช้ นี่คือ trade-off ตรงๆ ระหว่าง
- model quality ในอนาคต
กับ
- ความสบายใจเรื่องข้อมูลระหว่างใช้งาน
สำหรับบางคน trade-off นี้ยอมรับได้ โดยเฉพาะถ้าใช้กับโปรเจกต์ส่วนตัว, sandbox, หรือ repo ที่ไม่ได้ sensitive มาก
แต่สำหรับบางคน นี่อาจเป็นเส้นที่ไม่อยากข้าม
โดยเฉพาะถ้าใช้ Copilot กับ
- codebase ของลูกค้า
- internal tooling
- prototype ที่ยังไม่เปิดตัว
- logic ทางธุรกิจที่เป็นความลับ
ดังนั้นข่าวนี้ไม่มีคำตอบเดียวว่า “ถูก” หรือ “ผิด” แต่มันบังคับให้ทุกคนต้องตอบคำถามนี้ด้วยตัวเองให้ชัดขึ้น
—
6) สิ่งที่น่าสนใจอีกอย่างคือ GitHub พยายามลดแรงต้านด้วยการออกแบบข้อความอย่างระวัง
ถ้าดูประกาศและ FAQ จะเห็น pattern ที่น่าสนใจมาก
GitHub พยายามย้ำหลายเรื่องพร้อมกัน เช่น
- ให้เวลา 30 วันก่อนมีผล
- มี opt out ชัดเจน
- คนที่เคย opt out ไว้แล้ว preference จะถูกเก็บต่อ
- enterprise data protections ยังอยู่เหมือนเดิม
- third-party model providers จะไม่ได้เอาข้อมูลนี้ไป train ของตัวเอง
- มี automated filtering เพื่อลด sensitive data
- ข้อมูลที่แชร์กับ affiliate อย่าง Microsoft จะต้องเคารพ opt-out และ enterprise protections
นี่บอกอะไร?
มันบอกว่า GitHub รู้ดีว่าประเด็นนี้ไม่ใช่แค่ technical update แต่เป็นเรื่อง “ความไว้วางใจ”
และในตลาด AI ยุคนี้ ความไว้วางใจไม่ใช่ soft issue อีกแล้ว แต่มันคือ conversion issue, retention issue และ enterprise sales issue ไปพร้อมกัน
—
7) แล้ว developer และ CTO ควรอ่านข่าวนี้ยังไง
ผมคิดว่ามี 2 lens ที่ควรใช้
Lens ที่ 1: Developer lens
ถามตัวเองว่า
- account นี้ใช้กับงานอะไร
- repo ที่ใช้มีความ sensitive แค่ไหน
- เราโอเคไหมถ้า interaction data ถูกใช้ improve model
- เราได้ review setting นี้แล้วหรือยัง
Lens ที่ 2: Organization lens
ถามว่า
- ในทีมมีใครใช้ Free/Pro/Pro+ กับงานบริษัทบ้าง
- มี policy เรื่อง Copilot ที่ชัดหรือยัง
- แยกระหว่าง personal experimentation กับ company work หรือยัง
- ถ้าจะ allow, allow ภายใต้เงื่อนไขอะไร
- ถ้าจะ block, จะใช้ Business/Enterprise แทนไหม
ข่าวนี้จึงไม่ใช่แค่ข่าวของ developer คนเดียว แต่เป็นข่าวของคนที่ดู policy, security และ AI adoption ในทีมด้วย
—
8) สำหรับผม นี่คือจุดเปลี่ยนของสงคราม AI coding
ก่อนหน้านี้สงคราม AI coding ดูเหมือนแข่งกันที่
- model เก่งกว่าไหม
- agent ทำงานได้เยอะแค่ไหน
- integration กับ IDE ลึกแค่ไหน
แต่จากข่าวนี้ เกมกำลังเปลี่ยนเป็นอีกแบบ
ใครมี
- distribution มากกว่า
- data loop ดีกว่า
- trust architecture ชัดกว่า
- segmentation ระหว่าง consumer กับ enterprise แม่นกว่า
คนนั้นจะได้เปรียบระยะยาว
พูดให้แรงขึ้นอีกนิด
AI coding tools รุ่นถัดไปอาจไม่ได้ชนะกันแค่ที่ “ใครเขียนโค้ดเก่งกว่า” แต่ชนะกันที่ “ใครมีสิทธิ์เรียนจากงานจริงได้มากกว่า โดยที่ลูกค้ายังยอมรับได้”
นี่คือหัวใจของเรื่องทั้งหมด
—
9) คนไทยควรเอาเรื่องนี้ไปใช้ยังไง
สำหรับทีมไทย ผมคิดว่าทำได้ 4 ข้อทันที
1. Audit ก่อนว่าใครใช้อะไร
แค่รู้ว่าในทีมมีใครใช้ Copilot แบบไหนกับงานอะไร ก็ช่วยลด blind spot ได้มากแล้ว
2. ตั้ง policy แบบ practical
ไม่ต้องเริ่มจากเอกสาร 20 หน้า เริ่มจากกติกาง่ายๆ เช่น
- งานส่วนตัวใช้ plan ส่วนตัวได้
- งานบริษัทใช้เฉพาะ plan องค์กร
- ห้ามใช้ personal plan กับ repo ลูกค้า
3. สอนทีมให้รู้ว่าคำว่า “private repo” ไม่ได้แปลว่าทุกอย่างจบ
เพราะโจทย์ของข่าวนี้อยู่ที่ interaction data ระหว่าง active use ไม่ใช่แค่ data ที่เก็บนิ่งอยู่ใน repo
4. ทำ AI adoption ให้คุยกับ legal/security ได้ตั้งแต่ต้น
เพราะต่อจากนี้ privacy, policy และ training boundary จะเป็นส่วนหนึ่งของ tool selection เสมอ
—
10) สรุป
GitHub Copilot policy update รอบนี้ไม่ใช่แค่ setting ใหม่ให้ติ๊กเปิดหรือปิด
แต่มันคือการประกาศว่า
- real-world coding interaction data มีค่ามาก
- consumer tier และ enterprise tier ไม่ได้ซื้อของชิ้นเดียวกันอีกต่อไป
- privacy boundary กำลังกลายเป็นส่วนหนึ่งของ product strategy
- AI coding market จะชนะกันด้วย data + trust + distribution พอๆ กับ model quality
ถ้ามองให้ลึก นี่ไม่ใช่แค่ข่าวว่า GitHub จะใช้ data มาฝึกโมเดล แต่มันคือข่าวว่า สงคราม AI coding กำลังเข้าสู่เฟสที่ “ใครมี data flywheel ที่ดีกว่า และใครสร้าง trust boundary ได้ดีกว่า” จะเริ่มได้เปรียบจริง
และสำหรับคนทำธุรกิจ นี่คือสิ่งที่ควรจับตาไม่แพ้ benchmark ใหม่ของโมเดลเลย
—
FAQ
Q1: GitHub จะเอา private repository ไป train ตรงๆ ไหม?
จากประกาศและ FAQ ของ GitHub, private repository content ที่เก็บอยู่บน GitHub แบบ at rest จะไม่ถูกเอาไป train โดยตรง แต่ code snippets และ context ที่ถูกส่งเข้า Copilot ระหว่าง active session อาจอยู่ในขอบเขต interaction data ได้ ถ้าผู้ใช้ไม่ได้ opt out
Q2: ใครบ้างที่โดนกระทบ?
ผู้ใช้ Copilot Free, Pro และ Pro+ จะอยู่ในขอบเขตของนโยบายนี้ ส่วน Copilot Business และ Copilot Enterprise ไม่ได้รับผลจากการเปลี่ยนแปลงนี้
Q3: ถ้าเคยปิด setting เก่าไว้แล้วต้องทำใหม่ไหม?
GitHub ระบุว่า ถ้าผู้ใช้เคย opt out จาก setting เดิมที่เกี่ยวกับการเก็บข้อมูลเพื่อปรับปรุง product preference จะถูกเก็บต่อ และข้อมูลจะไม่ถูกใช้เพื่อ training เว้นแต่ผู้ใช้จะ opt in
Q4: Third-party model providers จะได้ข้อมูลนี้ไป train โมเดลของตัวเองไหม?
GitHub ระบุว่า interaction data ภายใต้นโยบายนี้จะไม่ถูกส่งให้ third-party AI model providers เพื่อการ train แบบอิสระของฝั่งนั้นเอง แต่ข้อมูลอาจถูกแชร์กับ GitHub affiliates เช่น Microsoft ภายใต้เงื่อนไขที่ระบุไว้
Q5: ถ้าเป็น CTO ควรทำอะไรก่อน?
เริ่มจาก audit ว่าทีมใช้ plan ไหนกับ repo แบบไหนบ้าง จากนั้นตัดสินใจ policy ให้ชัดว่า use case ใดอนุญาตให้ใช้ plan ส่วนตัว และ use case ใดต้องใช้ plan องค์กรเท่านั้น
