dataset Archives - Page 3 of 4

วิเคราะห์แผนที่อาชญากรรม เมืองบอสตัน Boston Crimes วิเคราะห์อาชญากรรมโดยใช้พิกัดภูมิศาสตร์ Interactive Map ด้วย Folium – GeoSpatial ep.4

ในเคสนี้ เราจะสมมติตัวเองเป็นตำรวจในเมืองบอสตัน เราจะใช้ Dataset ที่เรามีมาวิเคราะห์อาชญากรรม ที่เกิดขึ้นในเมือง Boston ป้องกันปราบปรามอาชญากรรม ในเมืองนี้ให้ลดน้อยลงได้อย่างไร

พล็อตแผนที่ Interactive Map วิเคราะห์แผ่นดินไหว Earthquake ประเทศญี่ปุ่น รอยต่อเปลือกโลกภาคพื้นทวีป Tectonic Plate Boundary ด้วย Folium – GeoSpatial ep.3

ใน ep นี้ เราจะสมมติตัวเองเป็น นักผังเมืองทางด้านความปลอดภัย ในประเทศญี่ปุ่น เราจะมาวิเคราะห์กันว่าพื้นที่ไหนของญี่ปุ่น ต้องการเสริมกำลังป้องกันสาธาณภัยทางด้านแผ่นดินไหวเป็นพิเศษ เสริมโครงสร้างอาคารป้องกันแผ่นดินไหวเป็นพิเศษ

Data Pipeline คืออะไร Data Block API สร้าง Data Pipeline สำหรับเทรน Machine Learning แบบ Supervised Learning – Preprocessing ep.5

HDPE Pipeline in a harsh Australian environment, used for transporting water to a mine site. Credit: https://commons.wikimedia.org/wiki/File:HDPE_Pipeline_in_a_harsh_Australian_environment.jpg

ในการเทรน Machine Learning โดยเฉพาะแบบ Supervised Learning หรือข้อมูลมี Label นอกจากเรื่องการเทรน การออกแบบสถาปัตยกรรมของโมเดล ยังมีงานสำคัญอีกหลายที่ต้องทำก่อนที่เราจะเริ่มเทรนได้ หนึ่งในนั้นคือ สร้าง Data Pipeline จัดเตรียมข้อมูล

Coordinate Reference System (CRS) คืออะไร Map Projection คืออะไร สอน GeoPandas แปลง CRS ข้อมูลภูมิศาสตร์ GeoData – GeoSpatial ep.2

The Dymaxion map or Fuller map is a projection of a world map onto the surface of an icosahedron, which can be unfolded and flattened to two dimensions. The flat map is heavily interrupted in order to preserve shapes and sizes. Credit https://en.wikipedia.org/wiki/File:Dymaxion_projection.png

แผนที่ที่เราใช้กันอยู่ทุกวันนี้ คือการฉายภาพของพื้นผิวโลกลงบนพื้นที่ 2 มิติ เหมือนแผ่นกระดาษ แต่โลกของเราจริง ๆ แล้วเป็นทรงกลม 3 มิติ เหมือนผลส้ม ดังนั้นเราจึงต้องมีวิธีการเรียกว่า Map Projection เพื่อ Render พื้นผิวโค้ง 3 มิติ แปลงให้เป็นพื้นผิวเรียบ 2 มิติ เนื่องจากเป็นการแปลง 3 มิติเป็น 2 มิติ จะต้องมีข้อมูลสูญหายไป แล้ว Projection แบบไหนที่ดีที่สุด เราจะเลือก Projection อย่างไร

Geospatial Data คืออะไร สอน GeoPandas วาดแผนที่ข้อมูลภูมิศาสตร์ ใน Google Colab ดึง Geographic Dataset จาก Kaggle – GeoSpatial ep.1

แผนที่การแพร่กระจายของกาฬโรคในทวีปยุโรป Spread of the Black death in Europe. Credit https://en.wikipedia.org/wiki/File:Bubonic_plague-en.svg

ใน ep นี้ เราจะมาเรียนรู้เกี่ยวกับ Geospatial Data ข้อมูลภูมิศาสตร์ หรือ ข้อมูลที่มีพิกัดตำแหน่งบนแผนที่บนโลกใบนี้ติดมาด้วย รวมถึงวิธีการ Wrangle ข้อมูล และการทำ Visualize ข้อมูล ออกมาเป็นภาพให้คนทั่วไปเข้าใจได้ง่าย ข้อมูลทางภูมิศาสตร์ช่วยให้เราตัดสินใจ ตอบคำถาม แก้ปัญหาต่าง ๆ ที่เกิดขึ้นบนโลกแห่งความเป็นจริงได้ดีมากขึ้น

Refactor โค้ด Neural Network สร้าง DataBunch และ Learner ปรับปรุง Training Loop – Neural Network ep.9

Roses and Lillies by Henri Fantin-Latour (1888). Credit https://www.wikiart.org/en/henri-fantin-latour/roses-and-lilies-1888

ใน ep ที่แล้วเราได้ Neural Network และ Training Loop ที่ทำงานได้ดีพอสมควร มีการวัดผล Metrics กับข้อมูลใน Validation Set เพื่อให้แน่ใจว่าโมเดลทำงานได้ถูกต้องกับข้อมูลที่ไม่เคยเห็นมาก่อน แต่โค้ด Training Loop ของเรายังมีความซับซ้อนเกินไป ใช้ Parameter จากภายนอกถึง 6 ตัว ซึ่งมากเกินไป ทำให้ยากต่อการต่อยอดเทรนในอัลกอริทึมที่ซับซ้อนยิ่งขึ้น แล้วเราจะแก้ไขอย่างไร

สำรวจข้อมูล Exploratory Data Analysis (EDA) ด้วย Pandas Profiling วิเคราะห์ Pandas DataFrame – Pandas ep.6

Graph representing the metadata of thousands of archive documents, documenting the social network of hundreds of League of Nations personals. Credit https://commons.wikimedia.org/wiki/File:Social_Network_Analysis_Visualization.png

เมื่อเราได้ Dataset ใหม่มา สิ่งแรกที่เราควรทำ คือ Exploratory Data Analysis (EDA) ทำความเข้าใจข้อมูล ในแต่ละ Feaure เช่น ข้อมูลเป็นชนิดอะไร, ข้อมูลเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง, ช่วงของข้อมูลกว้างแค่ไหน, การกระจายของข้อมูลเป็นอย่างไร, มีข้อมูลขาดหายไปเยอะแค่ไหน, แต่ละ Feature เชื่อมโยงกันอย่างไร การวิเคราะห์ทั้งหมดนี้ค่อนข้างซับซ้อน และซ้ำซ้อนเหมือนกันในทุก ๆ Dataset จะมีวิธีไหนที่จะทำให้งานซ้ำ ๆ เหล่านี้ง่ายขึ้น

MNIST คืออะไร

MNIST Sample Data. Credit http://yann.lecun.com/exdb/mnist/

MNIST Database คือ ชุดข้อมูลรูปภาพของตัวเลขอารบิก 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ที่เขียนด้วยลายมือ 70,000 รูป MNIST คือ ชุดข้อมูลสำหรับไว้เทรน Artificial Intelligence (AI) เกี่ยวกับ Computer Vision / Image Processing

สับไพ่ข้อมูล DataLoader ด้วย Random Sampler และ Collate ป้อนโมเดล เทรน Machine Learning – Neural Network ep.7

A riffle shuffle being performed during a game of poker at a bar near Madison, Wisconsin. Credit https://en.wikipedia.org/wiki/File:Riffle_shuffle.jpg

ในแต่ละ Epoch ของการเทรน Machine Learning สอนโมเดล Deep Neural Network เราไม่ควรป้อนข้อมูลที่เรียงลำดับเหมือนกันทุกครั้งให้โมเดล ใน ep นี้เราจะมาสร้าง DataLoader เวอร์ชันใหม่ ที่จะสับไพ่ข้อมูลตัวอย่างก่อนป้อนให้โมเดล เป็นการลดการจำข้อสอบของโมเดล ช่วยให้โมเดล Generalization ได้ดีขึ้น ลด Variance ของโมเดล

ใช้ Dataset, DataLoader ป้อนข้อมูลให้ Neural Network ทีละ Batch สอน Refactor Training Loop – Neural Network ep.5

Doughnut production line. Credit https://en.wikipedia.org/wiki/Production_line#/media/File:Krispy_Kreme_Doughnuts.jpg

ใน ep นี้เราจะมาสร้าง Dataset และ DataLoader เพื่อเป็น Abstraction ในจัดการข้อมูลตัวอย่าง x, y จาก Training Set, Validation Set ที่เราจะป้อนให้กับ Neural Network ใช้เทรน ใน Training Loop ของ Machine Learning