ในหลาย ๆ Dataset เราจะพบว่าข้อมูลแบบ Category มีการแตกยิบย่อยมากเกินไป เช่น บาง Category มีแค่ 1 หรือ 2 Record เท่านั้น หรือ Category เล็ก จำนวน Record แตกต่างกับ Category ใหญ่ ๆ หลายร้อย หลายพันเท่า ข้อมูล Category เล็ก ๆ ยิบย่อยเหล่านี้ อาจจะไม่ได้ช่วยโมเดล Machine Learning ในการเรียนรู้ก็ได้
ทางแก้คือ เราจะ Group รวม Category เล็ก ๆ เหล่านั้นรวมออกมาเป็น Category ใหม่ ตั้งชื่อว่า Other
Other (และอื่น ๆ)
การสร้าง Other Category มีข้อดีอีกอย่าง คือ ถ้าเวลาใช้งานจริง มีข้อมูล Category ใหม่ หลุดเข้ามา เราอาจจะเอาใส่ไว้ใน Other ได้เลย โดยที่ไม่ต้องแก้โปรแกรมเยอะ
และยิ่งถ้า Category นั่นใช้ One-Hot Encoding ถ้าเรามี Category ยิบย่อยจำนวนมาก เช่น หลักพัน จะทำให้ต้องเพิ่มจำนวน Column อีกหลักพัน เท่าจำนวนหมวดหมู่ ทำให้โมเดลอาจจะมีปัญหาได้