วิชาเหมืองข้อมูล (Data Mining)

คำอธิบายรายวิชา

หลักการและขั้นตอนของกระบวนการเหมืองข้อมูล (CRISP-DM), ทำความเข้าใจโดเมน/ข้อมูล, เตรียมข้อมูล (ทำความสะอาด/แปลง/ลดมิติ), เทคนิคการสร้างแบบจำลองทั้งแบบกำกับและไม่กำกับ, การประเมิน/เลือกโมเดล, การนำไปใช้งานจริง และข้อพึงระวังด้านจริยธรรม/ความเป็นส่วนตัว

เข้าใจ Workflow CRISP-DM: Business → Data → Modeling → Evaluation → Deployment
เทคนิคสำคัญ: Association Rules, Classification, Clustering, Dimensionality Reduction
ประเมินผลด้วย Hold-out / K-Fold และตัวชี้วัดที่เหมาะสมตามปัญหา
เชื่อม Insight กับมุมมองเชิงธุรกิจ/วิจัย วางแผน Deployment อย่างปลอดภัย

ข้อมูลรายวิชา

รูปแบบ: บรรยาย + ปฏิบัติ (Python/Notebooks)

สื่อ: PDF + สไลด์ + โค้ดตัวอย่าง

ผู้สอน

ผู้ช่วยศาสตราจารย์ ดร. นัฐพงศ์ ส่งเนียม

xnattapong@gmail.com

แผนบทเรียน (9 บท)

ลิงก์สื่อจะทยอยอัปเดต

บทที่ 1: บทนำ & CRISP-DM

แนวคิด ประวัติ กระบวนการ และเคสการใช้งาน

บทที่_1_แนะนำเหมืองข้อมูลเบื้องต้น_PDF Notebook

บทที่ 2: การทำความเข้าใจข้อมูล (Data Understanding)

แหล่งข้อมูล, EDA, สถิติเชิงพรรณนา

บทที่_2_DataMining_ความรู้พื้นฐานของเหมืองข้อมูล Dataset

บทที่ 3: การเตรียมข้อมูล (Data Preparation)

Cleaning, Missing/Outlier, Feature Engineering

บทที่_3_DataMining_การเตรียมข้อมูล_สำหรับการทำเหมืองข้อมูล โค้ดตัวอย่าง

บทที่ 4: การวิเคราะห์ข้อมูลเชิงสถิติในงานเหมืองข้อมูล

Apriori/FP-Growth, Support-Confidence-Lift

บทที่ 4 การวิเคราะห์ข้อมูลเชิงสถิติในงานเหมืองข้อมูล Notebook

บทที่ 5: กฏของความสัมพันธ์

Association Rules

บทที่ 5 กฏความสัมพันธ์(Association_Rule) ผลลัพธ์ตัวอย่าง

บทที่ 6: การจำแนกข้อมูลด้วย Decision Tree

Data Classification with Decision Tree

บทที่ 6 การจำแนกข้อมูลด้วยต้นไม้ตัดสินใจ(Data Classification) Notebook

บทที่ 7: การประเมินผล & เลือกโมเดล

K-Fold, Confusion Matrix, ROC-AUC, PR, Silhouette

PDF แบบฝึกหัด

บทที่ 8: ขั้นสูง & ลดมิติ

PCA/Feature Selection, Ensemble, Imbalanced Data

PDF โค้ดตัวอย่าง

บทที่ 9: Deployment & จริยธรรมข้อมูล

นำไปใช้จริง, Monitoring, อคติ, ความเป็นส่วนตัว/กฎหมาย

PDF Case Study

รวมเอกสารและสื่อทั้งหมด

ตารางสอน 16 สัปดาห์

สัปดาห์ 1

แนะนำรายวิชา • โครงสร้างคะแนน • โจทย์โปรเจกต์

ภาพรวม CRISP-DM

สัปดาห์ 2

บทที่ 1: บทนำ & CRISP-DM

งาน: เลือกโดเมน/ข้อมูล

สัปดาห์ 3

บทที่ 2: Data Understanding

Lab: EDA

สัปดาห์ 4

บทที่ 3: Data Preparation

Lab: Cleaning/FE

สัปดาห์ 5

บทที่ 4: Association Rules

Lab: Apriori/FP-Growth

สัปดาห์ 6

บทที่ 5: Classification (Part I)

Tree/k-NN

สัปดาห์ 7

บทที่ 5: Classification (Part II)

Logistic/SVM

สัปดาห์ 8

สอบกลางภาค (20%)

ครอบคลุมบท 1–5

สัปดาห์ 9

บทที่ 6: Clustering (Part I)

k-Means

สัปดาห์ 10

บทที่ 6: Clustering (Part II)

Hierarchical/DBSCAN

สัปดาห์ 11

บทที่ 7: Model Evaluation

K-Fold/ROC/PR

สัปดาห์ 12

บทที่ 8: Advanced/Dim. Reduction

PCA/Ensemble

สัปดาห์ 13

บทที่ 9: Deployment & Ethics

Case/Privacy

สัปดาห์ 14

Project Clinic

ตรวจความคืบหน้า/Feedback

สัปดาห์ 15

Project Presentation

สาธิต/รายงาน

สัปดาห์ 16

สอบปลายภาค (30%)

บท 6–9

การประเมินผล

สอบกลางภาค (20%)

ทฤษฎี + ปฏิบัติ ครอบคลุมบทที่ 1–5 (รวม EDA/Prep/Classification/Association)

แนวข้อสอบ (จะอัปเดต)

สอบปลายภาค (30%)

ทฤษฎี + ปฏิบัติ ครอบคลุมบทที่ 6–9 (Clustering/Evaluation/Deployment)

แนวข้อสอบ (จะอัปเดต)

โครงงานรายวิชา (30%)

โปรเจกต์เหมืองข้อมูลครบกระบวนการตาม CRISP-DM: เลือกโดเมน/ชุดข้อมูล → เตรียมข้อมูล → สร้างโมเดล ≥ 2 วิธี → ประเมิน/เปรียบเทียบ → สรุปเชิงธุรกิจ/วิจัย และวางแผน Deployment

ทีมละ ไม่เกิน 5 คน
ส่ง: รายงาน PDF + Notebook/Code + สไลด์นำเสนอ
กำหนดส่ง: สัปดาห์ที่ 15 (Presentation & Demo)

รายละเอียดการทำโครงงาน (Updated!) เทมเพลตรายงานโครงงาน (Updated!)

รูบริกการให้คะแนนโครงงาน

หัวข้อประเมิน	ยอดเยี่ยม (A)	ดี (B)	พอใช้ (C)	สัดส่วน
ความเหมาะสมของโดเมน/ข้อมูล ความชัดเจนของปัญหา แหล่งข้อมูล ความถูกต้องตามบริบท	ปัญหาชัด • ข้อมูลเหมาะสมและมีคุณภาพ • อธิบายข้อจำกัดได้	ปัญหาชัดพอควร • ข้อมูลใช้ได้ • ระบุข้อจำกัดบางส่วน	ปัญหา/ข้อมูลไม่ชัด • ข้อจำกัดคลุมเครือ	10%
การเตรียมข้อมูล & FE Cleaning, Missing/Outlier, Transform, Feature Eng.	กระบวนการครบถ้วน • มีเหตุผลรองรับ • ทำซ้ำได้	ครอบคลุมหลัก ๆ • มีเหตุผลพอควร	ทำแบบพื้นฐาน • ขาดเหตุผล/ความสม่ำเสมอ	20%
การสร้างโมเดล อย่างน้อย 2 วิธี + เหตุผลการเลือก	เลือกวิธีเหมาะสม • ปรับแต่งสมเหตุผล • อธิบายข้อดี/ข้อเสีย	มี ≥2 วิธี • ปรับแต่งบางส่วน	วิธีจำกัด/เหตุผลไม่ชัด	20%
การประเมินผล วิธีประเมินเหมาะกับงาน + Metric ถูกต้อง	ออกแบบประเมินดี • ใช้ Metric ถูกต้อง • วิเคราะห์เชิงลึก	ประเมินครบพอควร • วิเคราะห์พื้นฐาน	ประเมินไม่เหมาะ/Metric ผิดจุด	20%
Insight & การสื่อสาร เชิงธุรกิจ/วิจัย + Visualization ชัดเจน	Insight ชัดเจน • วิชวลดี • เชื่อมโยงการตัดสินใจได้	Insight ใช้ได้ • วิชวลพอควร	Insight เบาบาง • วิชวลสับสน	15%
เอกสาร & โค้ด ความครบถ้วน คุณภาพโค้ด การทำซ้ำได้	เอกสารถูกต้องครบ • โค้ดสะอาด • ทำซ้ำ/รันได้	เอกสาร/โค้ดครบพอควร	ขาดส่วนสำคัญ • รันไม่ได้บางส่วน	15%
รวม				100%