Pandas 01 : Introduction

Data Science, Machine Learning, Tutorial By มี.ค. 03, 2019 No Comments

โปรแกรมเมอร์หลายๆ คนที่สงสัยว่าเราจะเตรียมตัวในการเป็น Data Scientist อย่างไร เพราะเราเองพื้นฐานด้านสถิติก็ไม่ได้ดีมาก ยิ่งพวก Linear Algebra ยิ่งไม่เข้าใจ แล้วเราจะเปลี่ยนตัวเองจากโปรแกรมเมอร์เป็น Data Scientist ได้อย่างไร ในบทเรียนชุดนี้จะพาโปรแกรมเมอร์ทุกคนเรียนลัดในการใช้ Packgage ของ Python เข้ามาช่วยในการทำงานเพื่อเตรียมตัวเป็น Data Scientist ในอนาคต เรามาเริ่มต้นด้วยการปูพื้นฐานการใช้งาน Package ที่สำคัญเป็นลำดับต้นๆ คือ Pandas นั่นเองครับ

What is Pandas

Pandas คือ Python package ที่ช่วยให้เราสามารถทำงานด้าน data analysis ถ้าเราเข้าไปดูที่เว็บของ Pandas (https://pandas.pydata.org/) เราจะเห็นคำอธิบายว่า

pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

แปลง่ายๆ คือ pandas เป็น Open Source ที่ใช้งานง่ายยยยยยย ประสิทธิภาพสูงงงงงงงง เพื่อช่วยให้เราการวิเคราะห์โครงสร้างข้อมูล และการทำ Analysis ด้วย Python ขอเสริมอีกนิดคือ ในงาน Data Science ที่เขียนด้วย Python จำเป็นจะต้องใช้งาน Pandas แทบจะทุกงานครับ

Python Environment

ใน Turorial นี้เราจะใช้ Python 3 ในการเรียนนะครับ และเราจะเขียนโค้ดกันบน Google Colab ซึ่งใช้ได้ฟรีครับ เพียงแค่มี Google Account ก็ใช้งานได้ทันที หรือถ้าใครยังไม่มีก็สร้างใหม่ได้เลยครับแล้วไปที่ https://colab.research.google.com/notebooks/welcome.ipynb ได้เลย

เข้ามาแล้วให้เราสร้างเอกสารใหม่ได้เลย ไปที่ File -> New Python 3 notebook.

 

Google Colab Notebook

เราก็จะได้ไฟล์ใหม่ของ Google Colab Notebook เพื่อใช้งาน ต้องอธิบายกันนิดนึงนะครับว่า Google Colab Notebook คืออะไร มันเป็นตัวช่วยให้เราเขียนโค้ด Python พร้อมการแสดงผลได้ ทำงานในลักษณะ Web-based ทำให้เราสามารถโชว์ตาราง กราฟ และ output ได้ และแยกการทำงานเป็นส่วนๆ ซึ่งแต่ละส่วนนี้เราจะเรียกว่า Cell ครับ ทำให้เราแก้ไขงานได้โดยที่ไม่ต้อง Run code ใหม่ทั้งหมดครับ ที่สำคัญคือเราสามารถ Export notebook ออกเป็น pdf, presentation เพื่อใช้ในการนำเสนองานได้ทันที ทำให้ Notebook นั้นเป็นที่ชื่นชอบในหมู่ Data Scientist มากๆ ครับ

คราวนี้เรามาดูส่วนประกอบของเมนูเบื้องต้นกันก่อน

1. ชื่อไฟล์ notebook
2. แถบเมนูหลัก (เดี๋ยวอธิบายต่อระหว่างใช้งานนะครับ)
3. +Code จะเป็นการเพิ่ม Code Python ครับ
4. +Text จะเป็นการเพิ่ม Comment หรือคำอธิบายครับ ส่วนนี้ใส่รูปภาพได้ ใส่ URL ได้ จัด Format ได้ครับ
5. ช่วยให้เราเลื่อน แต่ละ Cell ขึ้นหรือลงได้ครับ

 

Insert 1st Code Cell

เรามาลองสร้าง Code Cell แรกกันครับ กดที่ปุ่ม +Code ได้เลย

คำสั่งแรกคือการ Import Pandas package เข้ามาใช้งานครับ

หลังจากที่เรา เขียน Code เสร็จ ให้กดปุ่ม Shift+Enter ที่ Keyboard เพื่อทำการ Run code ของ Cell นี้ครับ หรือถ้าไม่สะดวก เราสามารถ Run code ได้โดยไปที่ Runtime -> Run the focused cell หรือกดที่สัญญลักษณ์ Play ที่ Cell นั้น เพื่อทำการ Run code ก็ได้อีกเหมือนกันครับ

หลังจากที่ Code ได้ถูก run เรียบร้อยแล้ว ให้เราลองสร้าง Cell ใหม่ จะเห็นว่ามีตัวเลขขึ้นมา ตัวเลขนี้หมายถึงลำดับที่ของ Code ที่ถูก Run เพื่อช่วยให้เราได้รู้ว่า Cell ไหนได้ถูก run ไปแล้วบ้าง จะได้ไม่สับสนนั่นเองครับ (ตามภาพ)

เอาล่ะครับ ตอนนี้เราเข้าใจการใช้งาน Google Colab ที่จำเป็นแล้ว ในบทต่อไปต่อไปเรามาเริ่มเขียน Code กันดีกว่า

 

Author

Data Engineer, Data Strategist, Data Analyst, Data Scientist

No Comments

Leave a comment

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *