วันอังคารที่ 18 มกราคม พ.ศ. 2554

คลังขอมูลของ data warehouse

ความหมาย Data Warehouse
Data Warehouse (คลังข้อมูล) คือ ศูนย์รวมของข้อมูลที่จัดให้อยู่ในลักษณะที่สะดวกต่อการนำไปวิเคราะห์โดยง่าย ตัวอย่างเช่น การวิเคราะห์ข้อมูลที่เกี่ยวข้องกับยอดขาย อาจมีองค์ประกอบจากลูกค้า, พนักงานขาย, ระยะเวลา, ประเภท และชนิดของสินค้า ซึ่งข้อมูลอาจมาจากหลายๆ ระบบ

data warehouse เป็นศูนย์รวมของส่วนสำคัญหรือทั้งหมดของข้อมูล ซึ่งธุรกิจได้รวบรวมไว้ในระบบ คำนี้ได้รับเสนอโดย W.H. Inmon ในบางครั้ง IBM ใช้คำว่า information warehouse การย้ายข้อมูลจากฐานข้อมูลปกติ เข้าไปไว้ใน Date Warehouse มีข้อดีหลายอย่าง เช่น ทำให้องค์กรหรือ เจ้าของข้อมูล มีโอกาสได้ออกแบบรูปแบบการเก็บข้อมูลใหม่ให้เหมาะสมกับการเรียกใช้มากยิ่งขึ้น และทำให้เหมาะ สำหรับการนำไปใช้ช่วยในการตัดสินใจ หรือใช้ในงานวิเคราะห์ นอกจากนั้นระบบ Data Warehouse ยังรวมเอา ข้อมูลที่ใช้อยู่ในปัจจุบันเข้ากับข้อมูลในอดีตเข้าเป็นฐานข้อมูลเดียวกัน สามารถเรียกใช้งานได้จากอินเตอร์เฟสแบบ กราฟิกได้โดยตรง (GUI) พร้อมสำหรับการจัดการข้อมูลและนำข้อมูลที่ได้ไปวิเคราะห์ ข้อดีสุดท้ายก็คือ ระบบ Data Warehouse ทำให้ผู้ใช้ระดับสูง หรือพนักงานทั่วไปสามารถเข้าถึงและเรียกใช้ฐานข้อมูลได้ด้วยตัวเอง โดยไม่ต้องอาศัยความ ช่วยเหลือจากเจ้าหน้าที่ทาง IT อีกต่อไป

คลังข้อมูลจะทำหน้าที่ในการรวบรวม , คำนวณ , จัดเก็บ ตลอดจนสามารถบริหารและจัดการข้อมูลเท่าเหล่านี้ เพื่อให้ผู้บริหารสามารถรับข้อมูลที่ถูกต้องแม่นยำต่อการตัดสินใจในแนวทางของธุรกิจ โดยทั่วไปแล้วคลังข้อมูลมักมีลักษณะดังต่อไปนี้

Ø รวบรวมข้อมูลจากหลายๆ แหล่ง และปกติมักกำหนดให้อยู่ในลักษณะของการอ่านได้เพียงอย่างเดียวเท่านั้น

Ø สนับสนุนข้อมูลที่ช่วยในการตัดสินใจ

Ø เก็บผลของการคำนวณไว้ล่วงหน้า เพื่อช่วยให้คิวรีข้อมูลได้เร็วขึ้น

Ø ช่วยในการวิเคราะห์แนวทางของธุรกิจได้ตามระยะเวลาที่ผ่านมา

Ø มีการโหลดข้อมูลจากแหล่งต่างๆ อยู่เป็นประจำ เพื่อให้ข้อมูลที่ถูกอัพเดตหรือเพิ่มเติมเข้ามาอยู่ในการวิเคราะห์ด้วยเสมอ

1.ลักษณะของ Data Warehouse ต่างกับข้อมูลโดยทั่วไปที่องค์กรจัดเก็บอย่างไร
a. Data Warehouse เป็นข้อมูล History ได้จากข้อมูลการดำเนินงานในองค์กร ไม่มีการเปลี่ยนแปลงและใช้ในการวิเคราะห์สำหรับผู้บริหาร (OLAP – On-line Analytical Processing) ข้อมูลที่จัดเก็บในระบบข้อมูลองค์กรเป็นข้อมูลที่ใช้ในการดำเนินธุรกิจประจำวัน มีลักษณะเป็น Summary Data มีการเปลี่ยนแปลงอยู่เสมอ (OLTP: On-line Transaction Processing)

2.องค์กรจะสร้าง Data Warehouse ได้อย่างไร
a.ข้อมูลที่จะดึงจากระบบข้อมูลขององค์กรซึ่งอาจจัดเก็บใน RDBMS ต่างๆ กัน หรืออาจเป็น Flat file ก็ได้จะถูกส่งเข้าไปใน Data Warehouse โดยผ่าน Tool ETL ซึ่งอาจเป็น Tool สำเร็จรูปหรือบริษัทพัฒนาเอง
b.การออกแบบ Data Warehouse

จะทำการออกแบบ Schema โดยออกแบบ Fact (Measure/ค่าที่ใช้วัด) และ Dimension (มิติที่ต้องการมอง) เช่น ต้องการหายอดขายในภูมิภาคต่าง ๆ แยกตามไตรมาสและทีมขายในช่วงปี 2007-2010 ในที่นี้ Fact จะเป็น ยอดขาย ส่วน Dimension จะเป็นภูมิภาค ไตรมาส ทีมขาย ระยะเวลา Schema มีทั้งหมด 3 ประเภทได้แก่
1.Snowflake Schema: เป็นการวาง Dimension Table ไว้รอบๆ Fact Table โดยไม่มีการ Normalize Dimension Table Schema แบบนี้เป็นที่นิยม เพราะตาม Concept ของ Data Warehouse คือเน้นการนำเสนอต่อผู้บริหารได้รวดเร็วและง่าย (Query โดยไม่ต้องอาศัยความรู้ทางเทคนิคมาก)โดยไม่ต้องคำนึงถึงประสิทธิภาพมาก (Cost) เท่า OLTP
2.Star Schema: เป็นการวาง Dimension Table ไว้รอบๆ Fact Table โดยมีการ Normalize Dimension Table

3.Starflake Schema: เป็นการผสมผสาน Snowflake และ Star คือมีทั้ง Normalize และไม่ Normalize Dimension Table
c.ETL (Extract & Transform & Load) เป็นกระบวนการในการนำข้อมูลมาใส่ใน Data Warehouse
ดังนี้
• Extract : เนื่องจากข้อมูลที่จะเอาเข้ามาจะเป็นเพียงบางส่วนเท่าที่ต้องใช้ในการวิเคราะห์ใน Data Warehouse ไม่ใช่ข้อมูลทั้งหมด จึงต้องทำการ Extract มาเฉพาะข้อมูลที่ต้องการ
• Transform : ข้อมูล Legacy อาจมาจาก Database หลายประเภท และมักมีปัญหาจัดเก็บข้อมูลซ้ำซ้อน ข้อมูลบางอย่างเช่น รหัสลูกค้า Database แต่ละตัวจัดเก็บด้วยรูปแบบที่ต่างกัน หรืออาจมีปัญหาข้อมูลหายไปไม่สามารถเชื่อมโยงถึงกันได้ จึงต้องมีการทำ ETL เพื่อ Extract และ Transform Data ให้อยู่ใน Schema ของ Database ของ Data Warehouse ที่ได้ออกแบบไว้ Rule ต่างๆ ที่ใช้ในการ Transform Data จะจัดเก็บใน Metadata ๆ จะถูกปรับปรุงอยู่เสมอ เพราะหากไม่มีการแก้ไขข้อมูลใน Legacy ให้ถูกต้อง ก็อาจจมีข้อมูลผิดปกติไหลเข้าสู่ ETL ได้เสมอ จะมี Tool ที่ช่วยในการทำ Data Profiling เพื่อค้นหาข้อมูลที่ผิดปกติ เช่น SAS เช่น ต้องการจะคาดเดาชื่อที่สะกดผิดทั้งหมด แต่อ่านว่าสมชาย เหมือนกัน ต้องการหาจังหวัดกรุงเทพฯ ทั้งหมด แต่สะกดต่าง ๆ กัน เช่น กทม. กรุงเทพฯ ต้องการจะแยกที่อยู่ที่อยู่ในฟิลด์เดียวกันออกมาเป็นถนน ตำบล อำเภอ จังหวัด ระบบจะทำการแยกให้โดยใช้ Space
• Load: ข้อมูลใน Database จะไหลเข้าสู่ ETL แล้วถูกทำการ Extract และ Transform ก่อนที่จะถูก Load ผ่าน ETL เข้ามายัง Data Warehouse ตามช่วงเวลาที่กำหนดเช่น ทุกสิ้นเดือน

3.การใช้ประโยชน์จาก Data Warehouse
•OLAP : ข้อมูลที่เข้ามายัง Data Warehouse แล้ว ผู้ใช้ซึ่งเป็นผู้บริหารจะสามารถทำการ Query ข้อมูลใน Cube ได้เอง ออกมาเป็นรูปแบบต่างๆ ขึ้นอยู่กับความสามารถของ Tool เช่น Plot Graph การแสดงภาพ 3 มิติ การแสดงการกระจายข้อมูลในแผนที่
•Data Mining : การหารูปแบบ (pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก เช่น การค้นหากฎความสัมพันธ์ (association rules) ของสินค้าในห้างสรรพสินค้า เราอาจพบว่าลูกค้าร้อยละ 90 ที่ซื้อเบียร์ จะซื้อผ้าอ้อมเด็กด้วย, ซึ่งเป็นข้อมูลให้ทางห้างคิดรายการส่งเสริมการขายใหม่ๆ ได้



ไม่มีความคิดเห็น:

แสดงความคิดเห็น