Thursday, December 17, 2009

The ETL Process


  • Capture

  • Scrub or data cleansing

  • Transform

  • Load and Index
    ETL = Extract, transform, and load

การสร้างและการออกแบบโครงสร้างข้อมูล Data Warehouse ที่ดี










การสร้างและการออกแบบโครงสร้างข้อมูล Data Warehouse ที่ดี

  • Accessible ง่ายในการเข้าถึงข้อมูล
  • Transformed มีการเปลี่ยนแปลงข้อมูลเพื่อให้มีรูปแบบในการจัดลง Data Warehouse เพื่อง่ายต่อการเข้าถึงและวิเคราะห์ข้อมูล

  • Management – oriented คือ มีความยืดหยุ่นสามารถมองได้หลายรูปแบบ


DW-Modeling
•Star Schema
•Snowflake Schema
•Fact Constellations



หลักการสร้างและการออกแบบโครงสร้างข้อมูล Star Schema







หลักการสร้างและการออกแบบข้อมูล Snowflake Schema





หลักการสร้างและการออกแบบข้อมูล Fact Constellations



OLAP Operations


  • Cube slicing – come up with 2-D view of data


  • Drill-down – going from summary to more detailed views


Summary report &
Drill-down with color added


วิธีการเก็บข้อมูลลง คิวบ์

วิธีการเก็บข้อมูลลง คิวบ์
ROLAP STORAGE
› Relation OLAP เป็น Traditional relational representation ใช้ relation ใน database เหมาะกับ ระบบที่มีข้อมูลมาก ความถี่ในการใช้น้อย
MOLAP STORAGE
› Multidimensional OLAP เนื่องจากเก็บผลลัพธ์ไว้ในดิสก์ และ สามารถคำนวณผลที่ต้องการไว้ได้ล่วงหน้า เหมาะกับ ระบบที่มีข้อมูลขนาดปานกลาง
HOLAP STORAGE
› Hybrid OLAP โครงสร้างนี้จะผสมระหว่าง MOLAP และ ROLAP โดยใช้ข้อมูลที่มีอยู่ใน relation Database แต่สร้างยอดรวมไว้ในคิวบ์

CUBE

เป็นโมเดลของ Data Warehouse
  • เปรียบเสมือนลูกบากส์ ซึ่งแต่ละมุมมองจะทำให้เกิดการคิวรี องค์ประกอบหลักคือ
    - ไดเมนชัน (Dimension)
    - เมเชอร์ (Measure)

  • สามารถหมุนแกนได้ (pivoted data cube)

Operational VS Data Warehouse

Operational VS Data Warehouse



ตารางที่ 1 คำอธิบายบนส่วนท้ายตาราง

Operational

Warehouse (DSS)

Application Oriented
Subject Oriented
Used to run business
Used to analyze business
Clerical User
Manager/Analyst
Detailed data
Summarized and refined
Current up to date
Snapshot data
Isolated Data
Integrated Data
Repetitive access by small transactions
Ad-hoc access using large queries
Read/Update access
Mostly read access (batch update)

OLTP vs OLAP คืออะไร

OLTP(Online Transaction Processing)


เป็นการจัดการข้อมูลรายวัน
  • มีการ เพิ่ม ลบ แก้ไขข้อมูลได้ตลอดเวลา

  • ในองค์กรมีผู้ใช้เป็นจำนวนมาก

  • มักมีการแก้ไขข้อมูลพร้อมๆกันอยู่ตลอดเวลา

  • ถ้าหากอยากวิเคราะห์ข้อมูลจากระบบ OLTP มักนิยมcopy ข้อมูลไปยังอีกเครื่อง เพราะถ้าหากทำในเครื่องปกติที่ทำงานอยู่จะทำให้การทำงานช้า


  • OLAP(Online Analytical Processing)



    • คือเทคโนโลยี ที่ใช้ดึงข้อมูลจาก Data Warehouse เพื่อนำไปวิเคราะห์และหาคำตอบที่ต้องการได้อย่างมีประสิทธิภาพ

    • ช่วยในการตัดสินใจทางธุรกิจอย่างมีประสิทธิภาพ

    • ค้นหาข้อมูลรวดเร็ว

    • หาผลรวมได้ง่าย และมีประสิทธิภาพ

    • เรียก ดูข้อมูลได้อย่างรวดเร็ว