Categorize การเตรียมข้อมูลหมวดหมู่ Categorical Data ด้วย One-Hot Encoding, Map ก่อนเทรน Machine Learning – Preprocessing ep.3

นอกเหนือจากข้อมูลตัวเลข Cardinal ค่าต่อเนื่อง (Continuous) เราจะพบ Feature ที่เป็นข้อมูลค่าไม่ต่อเนื่อง (Discrete) ในรูปแบบตัวเลขแบบ Ordinal, Nominal หรือข้อความ คือ มีค่าที่เป็นไปได้จำกัด ระบุว่าอยู่หมวดหมู่ไหน เช่น วันในสัปดาห์ 1 จันทร์, 2 อังคาร, 3 พุธ, … คือ 1 ใน 7 ค่าเท่านั้น เราจะไม่สามารถทำ Rescale, Normalize แบบใน ep 2 ได้ แล้วเราจะเตรียมข้อมูลชนิดนี้อย่างไรดี ถึงจะป้อนให้ Machine Learning ใช้เทรนได้

One Hot Encoding คืออะไร ประโยชน์ ข้อดี ข้อเสีย ของ One Hot Encoding ทำไมต้องใช้ One Hot Encoding ใน Machine Learning

ในการศึกษา Machine Learning เราจะพบคำว่า One Hot Encoding อยู่เสมอ ๆ ใน ep นี้เราจะมาเรียนรู้กันว่า One Hot Encoding คืออะไร One Hot Encoding มีประโยชน์อย่างไร ช่วยแก้ปัญหาอะไร ทำไม Machine Learning ต้องใช้ One Hot Encoding

จำนวน Cardinal Numbers, Ordinal Numbers และ Nominal Numbers คืออะไร ชนิดของตัวเลข แตกต่างกันอย่างไร

ในการที่จะวิเคราะห์ข้อมูลในรูปแบบตาราง เราจะเจอข้อมูลหลากหลาย Data Type เช่น String, Integer, Float, Date, Datetime, BLOB, Etc. แต่ใน Column ที่เป็นตัวเลข Integer เหมือนกัน ก็ยังมีความหมายแฝงที่แตกต่างกันไปได้อีก แล้วแต่ว่าเป็นชนิดตัวเลขแบบ Cardinal Numbers, Ordinal Numbers หรือ Nominal Numbers