ขั้นตอนใดคือขั้นตอนการเตรียมข้อมูล

Embed from Getty Images

การเตรียมข้อมูล หรือ data preparation หรือบางทีเราอาจจะเรียกว่า data cleaning เป็นงานที่อาจจะน่าเบื่อสำหรับหลายๆ คน ทั้งๆ ที่ถือเป็นกระบวนการที่สำคัญมากอย่างหนึ่งในงาน business intelligence หากการเตรียมข้อมูลทำได้ไม่ดี มีโอกาสสูงที่จะก่อให้เกิดความเสียหายในขั้นตอนอื่นๆ ที่ตามมาได้ อย่างน้อยที่สุดก็อาจทำให้เสียเวลา ต้องทำใหม่ หรือถ้าแย่กว่านั้น อาจส่งผลให้ผลการวิเคราะห์ หรือการตีความจากการนำข้อมูลไปใช้ ผิดเพี้ยนไปจากที่ควรจะเป็น ข้อแนะนำง่ายๆ ในบทความนี้จะช่วยให้คุณสามารถทำการเตรียมข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น ลดงานในอนาคต และได้ประโยชน์สูงสุดจากการเตรียมข้อมูลของคุณ

Data Preparation หมายถึงอะไร

การเตรียมข้อมูล หรือ data preparation หมายถึงกระบวนการใดๆ ที่เราจำเป็นต้องทำกับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่เหมาะสม ที่จะนำไปโหลดเข้าฐานข้อมูล หรือนำไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของการทำ data preparation อาจจะแตกต่างกันไปสำหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบหนึ่ง อาจกลายมาเป็นข้อมูลดิบของระบบต่อไป

เราอาจพิจารณาการทำเตรียมข้อมูลเป็นระบบอย่างหนึ่ง ที่มี input เป็นข้อมูลดิบ และมี output เป็นข้อมูลที่อยู่ในรูปแบบที่พร้อมนำไปใช้งานต่อไปได้ทันที (tidy data: ความหมาย) โดยมากแล้ว การนำข้อมูลไปใช้งานต่อมักจะเป็นการนำไปโหลดเข้าฐานข้อมูลหรือนำไปวิเคราะห์หาคำตอบอย่างใดอย่างหนึ่ง บางคนอาจเรียกกระบวนการนี้ว่า data cleaning ซึ่งก็ให้ความหมายคล้ายคลึงกัน

การเตรียมข้อมูลที่มีประสิทธิภาพ ควรมีลักษณะสำคัญดังนี้

  • ให้ผลลัพธ์ที่ครบถ้วนสมบูรณ์
  • ให้ความสำคัญกับนิยามข้อมูล
  • จดบันทึกขั้นตอนการเตรียมข้อมูลโดยละเอียด
  • ปรับกระบวนการให้เป็นอัตโนมัติให้มากที่สุด

ผลลัพธ์ที่ครบถ้วนสมบูรณ์

ผลลัพธ์ของการเตรียมข้อมูล ไม่ได้จำกัดอยู่เพียงแค่ตัวข้อมูล output ที่ผ่านการเตรียมแล้วเท่านั้น แต่ควรจะต้องประกอบไปด้วยองค์ประกอบดังนี้

  • ข้อมูลดิบที่เป็นอินพุท
  • ข้อมูล output ที่ผ่านขั้นตอนแล้ว
  • ขั้นตอนการเตรียมข้อมูลโดยละเอียด
  • Code Book หรือเอกสารนิยามข้อมูล

การให้ผลลัพธ์ทั้งหมด จะช่วยให้การนำข้อมูลไปใช้งานต่อไป วางอยู่บนพื้นฐานที่มั่นคง และการทำการเตรียมข้อมูลซ้ำอีกครั้ง สำหรับข้อมูลชุดใหม่ สามารถทำได้รวดเร็วมากขึ้น

ให้ความสำคัญกับนิยามข้อมูล

นิยามข้อมูล หรือที่เราอาจจะเรียกว่า code book หรือ data dictionary เป็นเอกสารที่ใช้อธิบาย รูปแบบ โครงสร้าง และความหมายของผลการเตรียมข้อมูล อ่านนิยามของ code book ได้ที่นี่
เอกสารนี้มีความสำคัญอย่างยิ่ง เพราะจะช่วยให้ผู้ที่จะนำข้อมูลที่ผ่านการเตรียมแล้ว ไปใช้งานต่อ สามารถรู้ได้อย่างชัดเจนว่า ข้อมูลแต่ละคอลัมน์ แต่ละฟิลด์ เป็นข้อมูลอะไร มีความหมายอย่างไร มีหน่วยวัดอย่างไร ผ่านการคำนวณเบื้องต้นมาอย่างไรบ้าง ถ้ามีข้อมูลบางส่วนที่ขาดหายไป จะแสดงผลอย่างไร

การละเลยไม่เขียนเอกสารนิยามข้อมูล จะทำให้ผู้ที่นำข้อมูลไปใช้ต่อไป จำเป็นต้อง “เดา” ความหมายของข้อมูลเอาเอง อาจจะจากชื่อของฟิลด์(ซึ่งก็อาจไม่สื่อความหมายเท่าที่ควร) หรือจากธรรมเนียมปฎิบัติโดยทั่วไป ผลเสียจะเกิดขึ้นเมื่อเดาผิด ส่งผลให้การนำข้อมูลไปใช้ต่อผิดพลาดไปด้วย

จดบันทึกขั้นตอนการเตรียมข้อมูล

การทำบันทึกขั้นตอนการเตรียมข้อมูลโดยละเอียด จะช่วยให้เราสามารถทำซ้ำกระบวนการนั้นได้ โดยไม่จำเป็นต้องมาลองผิดลองถูกอีกครั้ง รายละเอียดการจดบันทึก ควรประกอบไปด้วย

  • ระบบที่ใช้ ใช้ซอฟต์แวร์ตัวใด เวอร์ชันไหน
  • ข้อมูลดิบ ได้มาจากไหน ดาวน์โหลดอย่างไร ใช้โปรแกรมอะไรดาวน์โหลด มีพารามิเตอร์อะไรบ้าง
  • ขั้นตอนโดยละเอียด เช่น มีการเปลี่ยนชื่อไฟล์ มีการแปลงรูปแบบไฟล์ อย่างไรบ้าง
  • รายละเอียดหากมีการเปลี่ยนแปลงข้อมูล เพิ่มหรือลบ ข้อมูลบางแถวหรือบางคอลัมน์

รายละเอียดขั้นตอนเหล่านี้ ควรจะถูกส่งมอบในฐานะส่วนหนึ่งของผลลัพธ์การเตรียมข้อมูลด้วย นอกจากจะเป็นบันทึกความจำที่เราอาจได้ใช้ประโยชน์เองในภายหลัง ที่สำคัญคือ มันเปิดโอกาสให้คนอื่น สามารถทำซ้ำกระบวนการการเตรียมข้อมูลได้เช่นเดียวกับเรา และยังคงได้ผลลัพธ์เช่นเดียวกัน

ปรับให้เป็นกระบวนการอัตโนมัติ

หากเรามีความจำเป็นต้องทำการเตรียมข้อมูลในลักษณะเดียวกันหลายๆ ครั้ง ควรพิจารณาหาวิธีที่จะทำให้กระบวนการ (ที่เราบันทึกไว้) มีความเป็นอัตโนมัติมากที่สุด เพราะจะช่วยให้ประหยัดเวลาได้มากในระยะยาว การปรับกระบวนการให้เป็นอัตโนมัติขึ้นอยู่กับเครื่องมือที่ใช้ อาจเขียนเป็น script หรีอใช้ แมคโคร ขึ้นอยู่กับซอฟต์แวร์ที่เราใช้ในการเตรียมข้อมูลเป็นหลัก

หลักการของการปรับกระบวนการเป็นอัตโนมัติ คือการพยายามลด human interaction หรือความจำเป็นที่จะต้องให้ “คน” ทำอะไรบางอย่างให้ลดน้อยลงให้มากที่สุด

ความท้าทายจะอยู่ตรงที่ การหาจุดคุ้มทุนที่เหมาะสมในการพัฒนาขั้นตอนอัตโนมัติ โดยเทียบกับผลประโยชน์ที่จะได้รับ การพัฒนาขั้นตอนอัตโนมัติมีต้นทุน ต้องมีการพัฒนามีการทดสอบ ต้นทุนเหล่านี้ขึ้นอยู่กับทักษะทางด้านโปรแกรมมิ่งของผู้พัฒนาเอง ผลประโยชน์ที่จะได้รับจะอยู่ในรูปของเวลาที่ประหยัดได้ (โดยที่ผู้ใช้ไม่จำเป็นต้องมาคอย กด หรือคลิ้ก หรือพิมพ์อะไรบางอย่างลงไป) คูณกับ จำนวนครั้งที่จะต้องทำกระบวนการเดิมซ้ำๆ กัน ดังนั้นแล้ว คำถามหนึ่งที่น่าสนใจก็คือ เราคาดว่าจำเป็นจะต้องทำกระบวนการเตรียมข้อมูลซ้ำบ่อยครั้งมากน้อยเท่าใด เทียบเวลาที่ต้องใช้แต่ละครั้ง แล้วคุ้มค่ากับการพัฒนาขั้นตอนอัตโนมัติหรือไม่

สรุป

ขั้นตอนและข้อแนะนำในการเตรียมข้อมูลเหล่านี้ อาจจะดูเผินๆ เหมือนเป็นการเพิ่มงานให้มากขึ้นในตอนแรก แต่คำแนะนำเหล่านี้จะช่วยเพิ่มคุณภาพของข้อมูลผลลัพธ์ ลดและป้องกันปัญหาที่อาจเกิดตามมา และทำให้งาน business intelligence มีประโยชน์มากขึ้นได้

Toplist

โพสต์ล่าสุด

แท็ก

flow chart แสดงขั้นตอนการปฏิบัติงาน lmyour แปลภาษา กาพย์เห่ชมเครื่องคาวหวาน กาพย์เห่เรือ การเขียน flowchart โปรแกรม ตัวรับสัญญาณ wifi โน๊ตบุ๊คหาย ตัวอย่าง flowchart ขั้นตอนการทํางาน ผู้แต่งกาพย์เห่ชมไม้ ภูมิปัญญาหมายถึง มีสัญญาณ wifi แต่เชื่อมต่อไม่ได้ เชื่อมต่อแล้ว ไม่มีการเข้าถึงอินเทอร์เน็ต แปลภาษาอังกฤษเป็นไทย pantip แปลภาษาไทย ไทยแปลอังกฤษ /roblox promo code redeem 3 พระจอม มีที่ไหนบ้าง AKI PLUS รีวิว APC UPS APC UPS คือ Adobe Audition Adobe Bridge Anapril 5 mg Aqua City Odaiba Arcade Stick BMW F10 jerk Bahasa Thailand Benz C63 ราคา Bootstrap 4 Bootstrap 4 คือ Bootstrap 5 Brackets Brother Scanner Brother iPrint&Scan Brother utilities Burnt HD C63s AMG CSS เว้น ช่องว่าง CUPPA COFFEE สุราษฎร์ธานี Cathy Doll หาซื้อได้ที่ไหน Clock Humidity HTC-1 ColdFusion Constitutional isomer Cuppa Cottage เจ้าของ Cuppa Cottage เมนู Cuppa Cottage เวียงสระ DMC DRx จ่ายปันผลยังไง Detroit Metal City Div class คือ Drastic Vita