รายวิชาเหมืองข้อมูล

Data Mining (เหมืองข้อมูล)

ตั้งแต่การทำความเข้าใจ/เตรียมข้อมูล สร้างโมเดล (Association • Classification • Clustering) ประเมินผล และ Deployment — ครบกระบวนการ CRISP-DM

Data Mining Illustration

คำอธิบายรายวิชา

หลักการและขั้นตอนของกระบวนการเหมืองข้อมูล (CRISP-DM), ทำความเข้าใจโดเมน/ข้อมูล, เตรียมข้อมูล (ทำความสะอาด/แปลง/ลดมิติ), เทคนิคการสร้างแบบจำลองทั้งแบบกำกับและไม่กำกับ, การประเมิน/เลือกโมเดล, การนำไปใช้งานจริง และข้อพึงระวังด้านจริยธรรม/ความเป็นส่วนตัว

  • เข้าใจ Workflow CRISP-DM: Business → Data → Modeling → Evaluation → Deployment
  • เทคนิคสำคัญ: Association Rules, Classification, Clustering, Dimensionality Reduction
  • ประเมินผลด้วย Hold-out / K-Fold และตัวชี้วัดที่เหมาะสมตามปัญหา
  • เชื่อม Insight กับมุมมองเชิงธุรกิจ/วิจัย วางแผน Deployment อย่างปลอดภัย
ข้อมูลรายวิชา
รูปแบบ: บรรยาย + ปฏิบัติ (Python/Notebooks)
สื่อ: PDF + สไลด์ + โค้ดตัวอย่าง

ผู้สอน
ผู้ช่วยศาสตราจารย์ ดร. นัฐพงศ์ ส่งเนียม

แผนบทเรียน (9 บท)

ลิงก์สื่อจะทยอยอัปเดต
บทที่ 1: บทนำ & CRISP-DM

แนวคิด ประวัติ กระบวนการ และเคสการใช้งาน

บทที่ 2: การทำความเข้าใจข้อมูล (Data Understanding)

แหล่งข้อมูล, EDA, สถิติเชิงพรรณนา

บทที่ 3: การเตรียมข้อมูล (Data Preparation)

Cleaning, Missing/Outlier, Feature Engineering

บทที่ 4: การวิเคราะห์ข้อมูลเชิงสถิติในงานเหมืองข้อมูล

Apriori/FP-Growth, Support-Confidence-Lift

บทที่ 5: กฏของความสัมพันธ์

Association Rules

บทที่ 6: การจำแนกข้อมูลด้วย Decision Tree

Data Classification with Decision Tree

บทที่ 7: การประเมินผล & เลือกโมเดล

K-Fold, Confusion Matrix, ROC-AUC, PR, Silhouette

บทที่ 8: ขั้นสูง & ลดมิติ

PCA/Feature Selection, Ensemble, Imbalanced Data

บทที่ 9: Deployment & จริยธรรมข้อมูล

นำไปใช้จริง, Monitoring, อคติ, ความเป็นส่วนตัว/กฎหมาย

ตารางสอน 16 สัปดาห์

สัปดาห์ 1
แนะนำรายวิชา • โครงสร้างคะแนน • โจทย์โปรเจกต์
ภาพรวม CRISP-DM
สัปดาห์ 2
บทที่ 1: บทนำ & CRISP-DM
งาน: เลือกโดเมน/ข้อมูล
สัปดาห์ 3
บทที่ 2: Data Understanding
Lab: EDA
สัปดาห์ 4
บทที่ 3: Data Preparation
Lab: Cleaning/FE
สัปดาห์ 5
บทที่ 4: Association Rules
Lab: Apriori/FP-Growth
สัปดาห์ 6
บทที่ 5: Classification (Part I)
Tree/k-NN
สัปดาห์ 7
บทที่ 5: Classification (Part II)
Logistic/SVM
สัปดาห์ 8
สอบกลางภาค (20%)
ครอบคลุมบท 1–5
สัปดาห์ 9
บทที่ 6: Clustering (Part I)
k-Means
สัปดาห์ 10
บทที่ 6: Clustering (Part II)
Hierarchical/DBSCAN
สัปดาห์ 11
บทที่ 7: Model Evaluation
K-Fold/ROC/PR
สัปดาห์ 12
บทที่ 8: Advanced/Dim. Reduction
PCA/Ensemble
สัปดาห์ 13
บทที่ 9: Deployment & Ethics
Case/Privacy
สัปดาห์ 14
Project Clinic
ตรวจความคืบหน้า/Feedback
สัปดาห์ 15
Project Presentation
สาธิต/รายงาน
สัปดาห์ 16
สอบปลายภาค (30%)
บท 6–9

การประเมินผล

สอบกลางภาค (20%)

ทฤษฎี + ปฏิบัติ ครอบคลุมบทที่ 1–5 (รวม EDA/Prep/Classification/Association)

แนวข้อสอบ (จะอัปเดต)
สอบปลายภาค (30%)

ทฤษฎี + ปฏิบัติ ครอบคลุมบทที่ 6–9 (Clustering/Evaluation/Deployment)

แนวข้อสอบ (จะอัปเดต)

โครงงานรายวิชา (30%)

โปรเจกต์เหมืองข้อมูลครบกระบวนการตาม CRISP-DM: เลือกโดเมน/ชุดข้อมูล → เตรียมข้อมูล → สร้างโมเดล ≥ 2 วิธี → ประเมิน/เปรียบเทียบ → สรุปเชิงธุรกิจ/วิจัย และวางแผน Deployment

  • ทีมละ ไม่เกิน 5 คน
  • ส่ง: รายงาน PDF + Notebook/Code + สไลด์นำเสนอ
  • กำหนดส่ง: สัปดาห์ที่ 15 (Presentation & Demo)
รายละเอียดการทำโครงงาน (Updated!) เทมเพลตรายงานโครงงาน (Updated!)
Data Mining Project

รูบริกการให้คะแนนโครงงาน

หัวข้อประเมิน ยอดเยี่ยม (A) ดี (B) พอใช้ (C) สัดส่วน
ความเหมาะสมของโดเมน/ข้อมูล
ความชัดเจนของปัญหา แหล่งข้อมูล ความถูกต้องตามบริบท
ปัญหาชัด • ข้อมูลเหมาะสมและมีคุณภาพ • อธิบายข้อจำกัดได้ ปัญหาชัดพอควร • ข้อมูลใช้ได้ • ระบุข้อจำกัดบางส่วน ปัญหา/ข้อมูลไม่ชัด • ข้อจำกัดคลุมเครือ 10%
การเตรียมข้อมูล & FE
Cleaning, Missing/Outlier, Transform, Feature Eng.
กระบวนการครบถ้วน • มีเหตุผลรองรับ • ทำซ้ำได้ ครอบคลุมหลัก ๆ • มีเหตุผลพอควร ทำแบบพื้นฐาน • ขาดเหตุผล/ความสม่ำเสมอ 20%
การสร้างโมเดล
อย่างน้อย 2 วิธี + เหตุผลการเลือก
เลือกวิธีเหมาะสม • ปรับแต่งสมเหตุผล • อธิบายข้อดี/ข้อเสีย มี ≥2 วิธี • ปรับแต่งบางส่วน วิธีจำกัด/เหตุผลไม่ชัด 20%
การประเมินผล
วิธีประเมินเหมาะกับงาน + Metric ถูกต้อง
ออกแบบประเมินดี • ใช้ Metric ถูกต้อง • วิเคราะห์เชิงลึก ประเมินครบพอควร • วิเคราะห์พื้นฐาน ประเมินไม่เหมาะ/Metric ผิดจุด 20%
Insight & การสื่อสาร
เชิงธุรกิจ/วิจัย + Visualization ชัดเจน
Insight ชัดเจน • วิชวลดี • เชื่อมโยงการตัดสินใจได้ Insight ใช้ได้ • วิชวลพอควร Insight เบาบาง • วิชวลสับสน 15%
เอกสาร & โค้ด
ความครบถ้วน คุณภาพโค้ด การทำซ้ำได้
เอกสารถูกต้องครบ • โค้ดสะอาด • ทำซ้ำ/รันได้ เอกสาร/โค้ดครบพอควร ขาดส่วนสำคัญ • รันไม่ได้บางส่วน 15%
รวม 100%
หมายเหตุ: จะมีการปรับสัดส่วนเล็กน้อยได้ตามความเหมาะสมของชั้นเรียน/จำนวนสัปดาห์จริง

เอกสารและสื่อประกอบ

PDF / สไลด์

จะทยอยอัปโหลดตามบทเรียน

โค้ดตัวอย่าง / Notebook

Python (pandas, scikit-learn, mlxtend ฯลฯ)

ชุดข้อมูลอ้างอิง

ตัวอย่าง: Titanic, Iris, Retail Basket, Customer Segmentation