การทำเหมืองข้อมูล (Data Mining)
การทำเหมืองข้อมูล
เรียบเรียงจากหนังสือ การทำเหมืองข้อมูล (Data Mining) โดย รศ.สายชล สินสมบูรณ์ทอง p.1
#1 การทำเหมืองข้อมูล คือ กระบวนการค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ ๆ โดยการเก็บข้อมูลจำนวนมากไว้ในคลังสินค้า แล้วใช้วิธีการทางคณิตศาสตร์และสถิติในการวิเคราะห์ข้อมูล (The Gartner Group)
#2 การทำเหมืองข้อมูล คือ การวิเคราะห์ข้อมูลจำนวนมากเพื่อหาความสัมพันธ์ และการสรุปผลข้อมูลซึ่งสามารถเข้าใจได้ และเป็นประโยชน์ต่อผู้ทำการเก็บรวบรวมข้อมูล (Hand, D. andd et al. : 2001)
#3 การทำเหมืองข้อมูล คือ การนำวิธีการจากการเรียนรู้เกี่ยวกับเครื่องจักร การจดจำรูปแบบได้ สถิติ และฐานข้อมูล เพื่อสกัดข้อมูลที่มีประโยชน์จากฐานข้อมูลขนาดใหญ่ได้ (Cabena, P. and et al. : 1998)
#4 การทำเหมืองข้อมูล คือ การสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ (Knowledge Discovery from very large databases : KDD) หรือเรียกว่า การทำเหมืองข้อมูลเป็นเทคนิคที่ใช้จัดการกับข้อมูลขนาดใหญ่ โดยจะนำข้อมูลที่มีอยู่มาวิเคราะห์แล้วดึงความรู้หรือสิ่งสำคัญออกมาเพื่อใช้ในการวิเคราะห์หรือทำนายสิ่งต่าง ๆ ที่จะเกิดขึ้น ซึ่งการค้นหาความรู้ และความจริงที่แฝงอยู่ในข้อมูล (Knowledge Discovery) เป็นกระบวนการขุดค้นสิ่งที่น่าสนใจในกองข้อมูลที่มีอยู่ ซึ่งต่างจากระบบฐานข้อมูล (Database System) ตรงที่การทำเหมืองข้อมูลไม่ต้องกำหนดคำสั่ง เช่น ภาษาสอบถามเชิงโครงสร้าง (Structured Query Language : SQL) ซึ่งเป็นภาษาสอบถามที่นิยมมากที่สุดของการจัดการฐานข้อมูล
MIT
Computer in Business
ธุรกิจและการเป็นผู้ประกอบการ
MIS
Decision Support System
What is Research?
Analysis by SPSS
DB by MySQL
Report by PHP
Report by Flash
Report by JAVA
ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์
Data scientist
Association rule : Apiori
Clustering : K-Means
Classification : Decision tree
WEKA for Data Mining
Rapidminer for Data Mining
สอนนักศึกษา อยากสอน ให้เค้าเชื่อ
เรียนเนี่ยเพื่อ ประโยชน์ เพิ่มทักษะ
อาจได้ใช้ ภายหน้า เลี้ยงชีพนะ
หากไม่เชื่อ พอใช้ ไม่พบเอา
การเจริญเติบโตของการทำ DM p.4
การเจริญเติบโตของการทำ DM และการค้นหาความรู้ส่งผลต่อปัจจัยต่าง ๆ ดังนี้
1. การเจริญเติบโตอย่างรวดเร็วในการรวบรวมข้อมูล เช่น POS
2. การเก็บรวบรวมข้อมูลไว้ในคลังสินค้า เพื่อการเข้าถึงฐานข้อมูลได้อย่างถูกต้อง
3. การเข้าถึงข้อมูล โดยใช้อินเตอร์เน็ตเพิ่มขึ้น
4. แรงกดดันในการแข่งขันกัน เพื่อเพิ่มส่วนแบ่งทางการตลาด
5. การพัฒนาของซอฟแวร์การทำเหมืองข้อมูลในเชิงการค้าที่เหมาะสม
6. การเจริญเติบโตอย่างรวดเร็วในความสามารถด้านการคำนวณ และการเก็บรักษา
การทำเหมืองข้อมูลเป็นกระบวนการทำงาน (Process) ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large information) เพื่อให้ได้สารสนเทศที่มีประโยชน์ (Useful Information) ที่เรายังไม่ทราบ (Unknown data) โดยเป็นสารสนเทศที่มีเหตุผล (Valid information) และสามารถนำไปใช้ได้ (Actionable) ซึ่งเป็นสิ่งสำคัญที่จะช่วยตัดสินใจในการทำธุรกิจ การทำเหมืองข้อมูลเป็นกระบวนการที่สำคัญในการค้นหาความรู้จากฐานข้อมูลขนาดใหญ่ (KDD)
การกำหนดวัตถุประสงค์ในทางธุรกิจ (Business Object Determination) เป็นตัวจักรที่สำคัญในการทำ KDD เนื่องจากเป็นการกำหนดขอบเขต เป้าหมายของการทำ KDD ซึ่งจะมีผลต่อทุก ๆ ขั้นตอนของการทำ KDD โดยนักวิเคราะห์ธุรกิจ (Business Analyst) จะต้องระบุ (Identify) ปัญหาที่เกิดขึ้นในการทำธุรกิจ ให้ครอบคลุมและชัดเจน รวมทั้งวัตถุประสงค์ด้วย
ประเภทข้อมูล และงานที่ทำใน DM p.6
ประเภทข้อมูลที่สามารถทำเหมืองข้อมูล
1. ฐานข้อมูตาราง (Relational Database)
2. ฐานข้อมูลคลังสินค้า (Data Warehouses)
3. ฐานข้อมูลรายการ (Transactional Database)
4. ฐานข้อมูลขั้นสูง (Advanced Database เช่น ข้อมูลเชิงวัตถุ ข้อมูลไฟล์ตัวอักษร ข้อมูลมัลติมีเดีย ข้อมูลในเว็บ
งานที่ทำให้กการทำ DM ประสบความสำเร็จ
(What tasks can Data Mining Accomplish?)

1. การพรรณา (Description) เช่น แผนภาพต้นไม้ โครงข่ายประสาท
2. การประมาณค่า (Estimation) เช่น เกรดเฉลี่ยมัธยม ใช้ประมาณเกรดป.ตรี (ตัวเลข)
3. การทำนาย (Prediction) เช่น การทำนายผู้ชนะในการแข่งขัน ในอนาคต
4. การจำแนกกลุ่ม (Classification) เช่น ยาชนิดไหนควรแนะนำให้คนไข้ (ขึ้นกับกลุ่ม)
5. การจัดกลุ่ม (Clustering) เช่น ตรวจบัญชีเพื่อแยกกลุ่มที่ดี กับ กลุ่มที่เสี่ยง
6. ความสัมพันธ์ (Association) เช่น หาสินค้าที่มักถูกซื้อร่วมกัน (ผ้าอ้อมกับเบียร์เย็นวันศุกร์) หรือไม่ซื้อร่วมกัน
ความจำเป็นของการจัดเตรียมข้อมูลก่อนประมวลผลข้อมูล p.33

ข่าวหายนะ เร้าอารมณ์ รึเปล่า
สิ่งที่ควรเป็น กับ สิ่งที่เป็นอยู่ อาจไม่ตรงกัน
Why do we need to preprocess the data ?
ข้อมูลดิบ (Raw data) จำนวนมากที่อยู่ในฐานข้อมูลยังไม่ได้จัดเตรียมข้อมูลก่อนประมวลผล เป็นข้อมูลที่ยังไม่สมบูรณ์ และข้อมูลรบกวน (Noisy) ตัวอย่างฐานข้อมูลที่มีข้อมูลปัญหานั้น อาจประกอบด้วย
- ข้อมูลล้าสมัย หรือฟุ่มเฟือยเกินไป (Obsolete หรือ Redundant ซ้ำซาก)
- ข้อมูลสูญหาย (missing value)
- ข้อมูลผิดปกติ (outlier)
- ข้อมูลอยู่ในรูปที่ไม่เหมาะสมสำหรับตัวแบบการทำเหมืองข้อมูล
- ข้อมูลไม่สอดคล้องกับนโยบาย หรือความรู้สึกโดยทั่วไป
การทำเหมืองข้อมูล เล่ม 1 การค้นหาความรู้จากข้อมูล
ผู้แต่ง : รศ.สายชล สินสมบูรณ์ทอง ISBN : 9786164408760
ปีพิมพ์ : 2 / 2560 ขนาด (w x h) : 185 x 260 mm.
ปก / จำนวนหน้า : ปกอ่อน / 550 หน้า ราคาปก : 290.00 บาท

หนังสือการทำเหมืองข้อมูลเล่ม 1 : การค้นหาความรู้จากข้อมูล พิมพ์ครั้งที่ 2 ฉบับปรับปรุง เหมาะสำหรับนิสิตและนักศึกษาในระดับปริญญาตรีและปริญญาโท ในคณะวิทยาศาสตร์ สารสนเทศ พาณิชยศาสตร์และการบัญชี และวิศวกรรมศาสตร์ ทั้งในระดับปริญญาตรีและปริญญาโท ในหลายสาขาวิชา เช่น สถิติ สถิติประยุกต์ การวิจัยการดำเนินงาน คณิตศาสตร์ คณิตศาสตร์ประยุกต์ วิทยาการคอมพิวเตอร์สารสนเทศ วิศวกรรมคอมพิวเตอร์ วิศวกรรมสารสนเทศ นอกจากนี้ยังเหมาะสมสำหรับคณะครุศาสตร์อุตสาหกรรม บริหารธุรกิจ เศรษฐศาสตร์ สังคมศาสตร์ มนุษยศาสตร์ ศึกษาศาสตร์ วิจัยการศึกษา แพทยศาสตร์ เภสัชศาสตร์ และเกษตรศาสตร์ ที่ต้องการศึกษาและนำหลักการในการทำเหมืองข้อมูลไปใช้ในการทำปัญหาพิเศษ การทำวิทยานิพนธ์ การทำวิจัย หรือเป็นเครื่องมือทางการตลาด เพื่อเอาชนะคู่แข่งทางธุรกิจ หนังสือเล่มนี้ประกอบด้วย 13 บท คือ บทนำเกี่ยวกับการทำเหมืองข้อมูล การจัดเตรียมข้อมูลก่อนประมวลผลข้อมูล การวิเคราะห์ข้อมูลโดยการสำรวจ วิธีการเชิงสถิติในการประมาณค่าและการทำนาย ความใกล้เคียงกันมากที่สุด ต้นไม้ตัดสินใจโครงการประสาทเทียม โครงจ่ายโคโฮเนน กฎความสัมพันธ์ วิธีการประเมินตัวแบบ การทำเหมืองข้อมูลบนเวป และโปรแกรมในการทำเหมืองข้อมูล

http://goo.gl/72BPC