และแน่นอนว่า ไม่สามารถหาวิธีการแก้ไขปัญหาที่ดี และ ถูกต้องได้ จากนั้นคุณจะต้องเข้าใจข้อมูลที่มีอีกด้วย ว่าข้อมูลประกอบไปด้วยอะไรบ้าง? ว่าข้อมูลแต่ละตัวมันหมายถึงอะไร? ว่าข้อมูลแต่ละตัวมีผลกระทบอะไร? ว่าข้อมูลแต่ละตัวมีความสำคัญอย่างไร? ว่าข้อมูลแต่ละตัวมีความสัมพันธ์กันอย่างไร? ว่าช่วงเวลากับข้อมูลแต่ละตัวเกี่ยวข้องกันอย่างไร? จึงจะช่วยทำให้เราสามารถเลือกข้อมูลที่ถูกต้อง เพื่อมาแก้ไขปัญหาได้อย่างถูกต้อง และ เหมาะสม อ่านไปเจอตัวอย่างที่น่าสนจาก ThinkToStart ยกตัวอย่างข้อมูลชุดนี้ เป็นข้อมูลการสมัครเข้าเรียนใหม่ของมหาวิทยาลัย เพื่อใช้ในการทำนายว่าจะสมัครเข้าเรียนหรือไม่? แสดงดังรูป ลองคิดดูสิว่า ถ้ามีข้อมูลมาเช่นนี้ โดยที่คุณไม่มีความรู้ทางด้านการศึกษาเลย มันจะเกิดอะไรขึ้นบ้าง? ชีวิตของคุณจะพบปัญหาอีกเยอะหรือไม่? ข้อมูลมันมีเยอะพอควร เช่น ที่อยู่ คณะที่สนใจเรียน และ GPA เป็นต้น สิ่งที่คุณจำเป็นต้องรู้ก็คือ ข้อมูลในแต่ละ column นั้นมันคืออะไร? ข้อมูลในแต่ละ column นั้นมันมีความสัมพันธ์กันอย่างไร? ตัวอย่างเช่นใน column F คือ Admitted (อนุญาตให้สมัครได้) พบว่ามีข้อมูลแถวที่ 2 และ 8 บอกว่า ทั้งสองจะไม่สมัครเข้าเรียน?
- ค้นหาลูกค้าขาดคุณภาพ เพื่อหลีกเลี่ยงความเสี่ยงในการปล่อยกู้ - ค้นหาลูกค้าชั้นดี เพื่อเสนอการปล่อยกู้ - ทำนายแนวโน้มของพฤติกรรมการใช้บัตรเครดิต สถานีโทรทัศน์หรือวิทยุ - ค้นหารายการที่ดีและเหมาะสมต่อช่วงเวลาที่สุด เพื่อวางผังรายการในแต่ละเดือน ฮาร์ดแวร์และซอฟต์แวร์คอมพิวเตอร์ - ค้นหาช่วงเวลาที่เหมาะสมกับการผลิตชิพคอมพิวเตอร์ตัวใหม่ เพื่อป้อนสู่ตลาด - การทำนายอายุการใช้งานของ Disk Drive หรือ อุปกรณ์ต่าง ๆ อ้างอิง: การทำเหมืองข้อมูล
ในปัจจุบันนั้น พบว่ามีการนำ Data Mining มาใช้เยอะขึ้นมาก ๆ แต่ส่วนใหญ่ที่พบเจอ มักจะคุยกันเฉพาะเครื่องมือที่ใช้งาน มากกว่าที่จะพยายามทำความเข้าใจกับข้อมูล และ business domain หรือความรู้ต่าง ๆ ที่จำเป็นต่อการวิเคราะห์ข้อมูล ซึ่งนี่คือปัญหาที่กำลังเกิดขึ้นอยู่ในปัจจุบัน ดังนั้น เรามาเรียนรู้ และ เข้าใจเกี่ยวกับ Data Mining Process กันหน่อย ว่ามันเป็นอย่างไรบ้าง?