ตั้งแต่การทำความเข้าใจ/เตรียมข้อมูล สร้างโมเดล (Association • Classification • Clustering) ประเมินผล และ Deployment — ครบกระบวนการ CRISP-DM
หลักการและขั้นตอนของกระบวนการเหมืองข้อมูล (CRISP-DM), ทำความเข้าใจโดเมน/ข้อมูล, เตรียมข้อมูล (ทำความสะอาด/แปลง/ลดมิติ), เทคนิคการสร้างแบบจำลองทั้งแบบกำกับและไม่กำกับ, การประเมิน/เลือกโมเดล, การนำไปใช้งานจริง และข้อพึงระวังด้านจริยธรรม/ความเป็นส่วนตัว
แนวคิด ประวัติ กระบวนการ และเคสการใช้งาน
แหล่งข้อมูล, EDA, สถิติเชิงพรรณนา
Cleaning, Missing/Outlier, Feature Engineering
Apriori/FP-Growth, Support-Confidence-Lift
Association Rules
Data Classification with Decision Tree
นำไปใช้จริง, Monitoring, อคติ, ความเป็นส่วนตัว/กฎหมาย
ทฤษฎี + ปฏิบัติ ครอบคลุมบทที่ 1–5 (รวม EDA/Prep/Classification/Association)
แนวข้อสอบ (จะอัปเดต)ทฤษฎี + ปฏิบัติ ครอบคลุมบทที่ 6–9 (Clustering/Evaluation/Deployment)
แนวข้อสอบ (จะอัปเดต)โปรเจกต์เหมืองข้อมูลครบกระบวนการตาม CRISP-DM: เลือกโดเมน/ชุดข้อมูล → เตรียมข้อมูล → สร้างโมเดล ≥ 2 วิธี → ประเมิน/เปรียบเทียบ → สรุปเชิงธุรกิจ/วิจัย และวางแผน Deployment
| หัวข้อประเมิน | ยอดเยี่ยม (A) | ดี (B) | พอใช้ (C) | สัดส่วน |
|---|---|---|---|---|
| ความเหมาะสมของโดเมน/ข้อมูล ความชัดเจนของปัญหา แหล่งข้อมูล ความถูกต้องตามบริบท |
ปัญหาชัด • ข้อมูลเหมาะสมและมีคุณภาพ • อธิบายข้อจำกัดได้ | ปัญหาชัดพอควร • ข้อมูลใช้ได้ • ระบุข้อจำกัดบางส่วน | ปัญหา/ข้อมูลไม่ชัด • ข้อจำกัดคลุมเครือ | 10% |
| การเตรียมข้อมูล & FE Cleaning, Missing/Outlier, Transform, Feature Eng. |
กระบวนการครบถ้วน • มีเหตุผลรองรับ • ทำซ้ำได้ | ครอบคลุมหลัก ๆ • มีเหตุผลพอควร | ทำแบบพื้นฐาน • ขาดเหตุผล/ความสม่ำเสมอ | 20% |
| การสร้างโมเดล อย่างน้อย 2 วิธี + เหตุผลการเลือก |
เลือกวิธีเหมาะสม • ปรับแต่งสมเหตุผล • อธิบายข้อดี/ข้อเสีย | มี ≥2 วิธี • ปรับแต่งบางส่วน | วิธีจำกัด/เหตุผลไม่ชัด | 20% |
| การประเมินผล วิธีประเมินเหมาะกับงาน + Metric ถูกต้อง |
ออกแบบประเมินดี • ใช้ Metric ถูกต้อง • วิเคราะห์เชิงลึก | ประเมินครบพอควร • วิเคราะห์พื้นฐาน | ประเมินไม่เหมาะ/Metric ผิดจุด | 20% |
| Insight & การสื่อสาร เชิงธุรกิจ/วิจัย + Visualization ชัดเจน |
Insight ชัดเจน • วิชวลดี • เชื่อมโยงการตัดสินใจได้ | Insight ใช้ได้ • วิชวลพอควร | Insight เบาบาง • วิชวลสับสน | 15% |
| เอกสาร & โค้ด ความครบถ้วน คุณภาพโค้ด การทำซ้ำได้ |
เอกสารถูกต้องครบ • โค้ดสะอาด • ทำซ้ำ/รันได้ | เอกสาร/โค้ดครบพอควร | ขาดส่วนสำคัญ • รันไม่ได้บางส่วน | 15% |
| รวม | 100% | |||
ตัวอย่าง: Titanic, Iris, Retail Basket, Customer Segmentation