คู่มือเบื้องต้นสำหรับการแบ่งส่วนภาพสำหรับระบบการมองเห็นของเครื่องจักร

เนื้อหา

แบ่งปันด้วย

คู่มือเบื้องต้นสำหรับการแบ่งส่วนภาพสำหรับระบบการมองเห็นของเครื่องจักร

การแบ่งส่วนภาพในระบบวิชันแมชชีนช่วยให้เครื่องจักรสามารถแยกภาพออกเป็นส่วนๆ เพื่อให้สามารถค้นหาวัตถุแต่ละชิ้นและเข้าใจสิ่งที่เกิดขึ้นได้ กระบวนการนี้ช่วยให้เครื่องจักรสามารถทำงานด้านวิชันคอมพิวเตอร์ได้ เช่น การตรวจจับวัตถุและการวิเคราะห์ฉาก ในการใช้งานจริง การแบ่งส่วนภาพช่วยให้เครื่องจักรสามารถตรวจสอบชิ้นส่วนได้หลายร้อยชิ้นต่อนาที ตรวจพบข้อบกพร่องได้อย่างแม่นยำกว่า 99% และลดเวลาหยุดทำงานลง 25%

  • ชุดข้อมูล SA-1B นำเสนอหน้ากากมากกว่า 1 พันล้านชิ้นสำหรับการฝึกอบรม ช่วยให้เครื่องจักรจดจำวัตถุในการตั้งค่าต่างๆ
  • โมเดลการแบ่งส่วนข้อมูล เช่น U-Net และ Mask R-CNN ช่วยให้เครื่องจักรค้นหาความผิดปกติเล็กๆ น้อยๆ และนำทางยานยนต์ไร้คนขับให้มองเห็นวัตถุต่างๆ เช่น คนเดินถนนและป้ายจราจร
    เทคโนโลยีระบบการมองเห็นของเครื่องจักรการแบ่งส่วนภาพช่วยให้การวิเคราะห์วัตถุมีความแม่นยำ รวดเร็ว และเชื่อถือได้มากยิ่งขึ้น

ประเด็นที่สำคัญ

  • การแบ่งส่วนภาพช่วยให้เครื่องจักรแบ่งภาพออกเป็นส่วนๆ เพื่อระบุและวิเคราะห์วัตถุได้อย่างแม่นยำ
  • การแบ่งส่วนประเภทต่างๆ เช่น การแบ่งตามความหมาย การแบ่งตามอินสแตนซ์ และการแบ่งตามภาพรวม มีวัตถุประสงค์เฉพาะตัวในการจดจำและนับวัตถุ
  • ระบบการมองเห็นของเครื่องจักรใช้การแบ่งส่วน เพื่อปรับปรุงความเร็ว ความแม่นยำ และความน่าเชื่อถือในการตรวจสอบในอุตสาหกรรมต่างๆ เช่น การผลิตและการดูแลสุขภาพ
  • วิธีการเรียนรู้เชิงลึก เช่น U-Net และ Mask R-CNN ให้ความแม่นยำสูงกว่า แต่ต้องใช้ข้อมูลและพลังการประมวลผลมากกว่าเทคนิคดั้งเดิม
  • ผู้เริ่มต้นสามารถเริ่มเรียนรู้ได้ การแบ่งส่วนภาพโดยใช้เครื่องมือฟรีและโปรเจ็กต์ง่ายๆ เพื่อสร้างทักษะสำหรับการใช้งานคอมพิวเตอร์วิชันในโลกแห่งความเป็นจริง

การแบ่งส่วนภาพในระบบการมองเห็นของเครื่องจักร

การแบ่งส่วนภาพคืออะไร?

การแบ่งส่วนรูปภาพ เป็นกระบวนการทางคอมพิวเตอร์วิทัศน์ที่เครื่องจักรแบ่งภาพออกเป็นส่วนย่อยๆ แต่ละส่วนหรือเซกเมนต์จะแสดงวัตถุหรือภูมิภาคที่แตกต่างกัน ซึ่งช่วยให้เครื่องจักรมองเห็นจุดสิ้นสุดของวัตถุหนึ่งและจุดเริ่มต้นของวัตถุอีกชิ้นหนึ่ง ตัวอย่างเช่น ในภาพถ่ายถนน การแบ่งเซกเมนต์สามารถแยกรถยนต์ ผู้คน และป้ายจราจรออกจากกันได้ จากนั้นเครื่องจักรจะสามารถโฟกัสที่วัตถุแต่ละชิ้นเพื่อวิเคราะห์เพิ่มเติมได้

การแบ่งส่วนใช้เทคนิคที่แตกต่างกันเพื่อจัดกลุ่มพิกเซลที่ดูคล้ายกัน บางวิธีใช้สี พื้นผิว หรือรูปร่าง ในขณะที่บางวิธีใช้เทคนิคขั้นสูง โมเดลคอมพิวเตอร์วิชั่น ที่เรียนรู้จากภาพจำนวนมาก แบบจำลองเหล่านี้ช่วยให้เครื่องจักรค้นหาขอบของวัตถุได้ แม้ว่าวัตถุเหล่านั้นจะซ้อนทับกันหรือมีรูปร่างที่ซับซ้อนก็ตาม

นักวิจัยใช้ตัวชี้วัดหลายตัวเพื่อวัดประสิทธิภาพของการแบ่งกลุ่มลูกค้า ตารางด้านล่างนี้แสดงตัวชี้วัดทั่วไปและความหมายของตัวชี้วัดเหล่านี้:

เมตริก / เกณฑ์ คำอธิบาย / กรณีการใช้งาน หมายเหตุ / ข้อควรพิจารณา
ค่าสัมประสิทธิ์ความคล้ายคลึงของลูกเต๋า (DSC) การวัดการทับซ้อนระหว่างการแบ่งส่วนตามการคาดการณ์และตามความเป็นจริง ใช้กันอย่างแพร่หลายในการแบ่งส่วนภาพทางการแพทย์ ดีสำหรับคลาสที่ไม่สมดุล เน้นที่ผลบวกที่แท้จริง
จุดตัดเหนือจุดเชื่อมต่อ (IoU) วัดอัตราส่วนของจุดตัดต่อการรวมกันของพื้นที่ที่คาดการณ์และความจริงภาคพื้นดิน เกณฑ์ IoU ควรได้รับการกำหนดไว้อย่างชัดเจน
คะแนน F1 ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน เกี่ยวข้องกับ DSC และ IoU ระบุกลยุทธ์การหาค่าเฉลี่ยและเกณฑ์ IoU
ความไวและความจำเพาะ วัดอัตราผลบวกที่แท้จริงและอัตราผลลบที่แท้จริงตามลำดับ อาจทำให้เข้าใจผิดได้ในสถานการณ์ที่ไม่สมดุล
ความถูกต้อง ความถูกต้องโดยรวมของการจำแนกประเภท ไม่น่าเชื่อถือเสมอไปสำหรับงานที่ไม่สมดุล
โคเฮน คัปปา การวัดความสอดคล้องระหว่างสิ่งที่คาดการณ์และความจริงพื้นฐานเหนือโอกาส มีประโยชน์ในการประเมินความน่าเชื่อถือ
ระยะทางเฮาส์ดอร์ฟเฉลี่ย (AHD) วัดความแตกต่างเชิงพื้นที่ระหว่างเส้นชั้นความสูง สำคัญสำหรับการประเมินรูปร่างที่แม่นยำ

เคล็ดลับ: เมื่อประเมินการแบ่งส่วนข้อมูล ควรตรวจสอบเสมอว่าเมตริกนั้นคำนวณสำหรับแต่ละพิกเซลหรือแต่ละวัตถุ วิธีนี้จะช่วยหลีกเลี่ยงความสับสนและช่วยให้การเปรียบเทียบเป็นไปอย่างยุติธรรม

ทำไมมันสำคัญ

การแบ่งส่วนภาพมีบทบาทสำคัญในระบบคอมพิวเตอร์วิทัศน์ ช่วยให้เครื่องจักรสามารถเข้าใจฉากต่างๆ ได้โดยการแยกและระบุวัตถุ ซึ่งมีความสำคัญต่องานในโลกแห่งความเป็นจริงมากมาย เช่น การตรวจจับวัตถุ การสร้างภาพทางการแพทย์ และรถยนต์ขับเคลื่อนอัตโนมัติ

การแบ่งส่วนข้อมูลช่วยเพิ่มทั้งความแม่นยำและความน่าเชื่อถือของระบบวิชันคอมพิวเตอร์ นักวิจัยใช้ตัวชี้วัดต่างๆ เช่น ความแม่นยำ การเรียกคืน คะแนน F1 และ IoU เพื่อวัดประสิทธิภาพของการแบ่งส่วนข้อมูลในการค้นหาและแยกวัตถุ ตัวอย่างเช่น

  • วิธีการแบ่งส่วนที่ใช้การตรวจจับชุมชน เช่น ลูเวน หรือ ไลเดน แสดงให้เห็นถึงความแม่นยำและความทนทานสูง
  • มักใช้เกณฑ์ IoU ที่ 0.5 เพื่อสร้างสมดุลระหว่างค่าบวกจริงและค่าบวกปลอม ทำให้การตรวจจับวัตถุมีความน่าเชื่อถือมากขึ้น
  • วิธีการกำหนดเกณฑ์ขั้นสูง เช่น Equilibrium Optimizer จะทำให้ได้คะแนนที่สูงขึ้นใน PSNR และ SSIM ซึ่งหมายถึงคุณภาพการแบ่งส่วนที่ดีขึ้นและข้อผิดพลาดน้อยลง
  • อัลกอริทึมแบบปรับตัวสามารถปรับได้แบบเรียลไทม์ ช่วยลดผลบวกและลบปลอม ซึ่งเป็นสิ่งสำคัญสำหรับสภาพแวดล้อมที่เปลี่ยนแปลง

เกณฑ์มาตรฐานอุตสาหกรรมยังเน้นย้ำถึงคุณค่าของการแบ่งส่วนข้อมูล โมเดลต่างๆ เช่น Segment Anything Model (SAM) ใช้ Binary Cross Entropy และ IoU เพื่อวัดความแม่นยำ SAM และเวอร์ชันที่ปรับปรุงแล้ว เช่น DIS-SAM และ MedSAM ได้กำหนดมาตรฐานใหม่ในสาขาต่างๆ เช่น การออกแบบศิลปะ การตัดต่อภาพ และการขับขี่อัตโนมัติ ด้วยการปรับปรุงวิธีที่เครื่องจักรค้นหาขอบเขตของวัตถุ

การเปรียบเทียบวิธีการแบ่งส่วนข้อมูลแสดงให้เห็นว่าโมเดลการเรียนรู้เชิงลึก เช่น U-Net และ Mask R-CNN มีความแม่นยำสูงสุด แต่ใช้เวลาในการประมวลผลภาพมากกว่า วิธีการเรียนรู้ด้วยเครื่อง (Machine Learning) ให้ความสมดุลระหว่างความเร็วและความแม่นยำ ในขณะที่วิธีการแบบง่ายนั้นรวดเร็วที่สุดแต่แม่นยำน้อยกว่า การแลกเปลี่ยนนี้ช่วยให้ผู้ใช้สามารถเลือกวิธีการที่เหมาะสมกับความต้องการของตนเองได้

ประเภทของการแบ่งส่วนภาพ

ประเภทของการแบ่งส่วนภาพ

การแบ่งส่วนความหมาย

การแบ่งส่วนความหมาย ช่วยให้ระบบวิชันซิสเต็มส์เข้าใจสิ่งที่อยู่ในภาพ วิธีการนี้จะกำหนดป้ายกำกับให้กับทุกพิกเซลในภาพ แต่ละพิกเซลจะถูกจัดกลุ่มตามหมวดหมู่ เช่น ถนน รถยนต์ หรือต้นไม้ ระบบไม่สนใจว่าพิกเซลนั้นอยู่ในวัตถุใด แต่สนใจเฉพาะคลาสเท่านั้น ตัวอย่างเช่น พิกเซลทั้งหมดที่แสดงรถยนต์จะมีป้ายกำกับเดียวกัน แม้ว่าจะมีรถยนต์หลายคันก็ตาม การแบ่งส่วนเชิงความหมายเหมาะสำหรับงานที่การรู้ประเภทของวัตถุมีความสำคัญมากกว่าการรู้ว่าวัตถุนั้นเป็นวัตถุชนิดใด

หมายเหตุ การแบ่งส่วนความหมายไม่สามารถแยกความแตกต่างระหว่างสองวัตถุในคลาสเดียวกันได้ แต่จะถือว่าวัตถุที่คล้ายกันทั้งหมดเป็นกลุ่มเดียวกัน

การแบ่งส่วนอินสแตนซ์

การแบ่งส่วนอินสแตนซ์ ยกระดับกระบวนการไปอีกขั้น ไม่เพียงแต่ติดป้ายกำกับแต่ละพิกเซลตามหมวดหมู่เท่านั้น แต่ยังแยกแต่ละอินสแตนซ์ของวัตถุได้อีกด้วย ระบบสามารถแยกแยะรถคันหนึ่งออกจากอีกคันได้ แม้ว่ารถจะสัมผัสกันก็ตาม การแบ่งส่วนอินสแตนซ์มีความสำคัญต่อการนับหรือติดตามวัตถุ ในโรงงาน ระบบใช้การแบ่งส่วนอินสแตนซ์เพื่อนับผลิตภัณฑ์แต่ละชิ้นบนสายพานลำเลียง วิธีนี้ช่วยได้ในกรณีที่จำนวนวัตถุมีความสำคัญ

ตารางด้านล่างแสดงความแตกต่างระหว่างการแบ่งส่วนเชิงความหมายและการแบ่งส่วนเชิงอินสแตนซ์:

ลักษณะ การแบ่งส่วนความหมาย การแบ่งส่วนอินสแตนซ์
ป้ายกำกับต่อพิกเซล ใช่ ใช่
แยกแยะวัตถุ ไม่ ใช่
นับวัตถุ ไม่ ใช่

การแบ่งส่วนแบบ Panoptic

การแบ่งส่วนแบบพาโนปติกผสานรวมจุดแข็งของทั้งการแบ่งส่วนเชิงความหมาย (semantic segmentation) และการแบ่งส่วนเชิงอินสแตนซ์ (instance segmentation) เข้าด้วยกัน โดยกำหนดป้ายกำกับเชิงความหมายให้กับแต่ละพิกเซล และยังแยกอินสแตนซ์ของวัตถุแต่ละอินสแตนซ์ออกจากกัน ระบบสามารถบอกได้ว่าวัตถุชนิดใดอยู่และเป็นอินสแตนซ์เฉพาะใด การแบ่งส่วนแบบพาโนปติกช่วยในฉากที่ซับซ้อนซึ่งทั้งคลาสและเอกลักษณ์ของแต่ละวัตถุมีความสำคัญ ตัวอย่างเช่น ในฉากถนน การแบ่งส่วนแบบพาโนปติกช่วยให้ระบบมองเห็นรถยนต์ บุคคล และป้ายจราจรทุกคัน และรู้ว่าอันไหนเป็นอันไหน

การแบ่งส่วนแบบพาโนปติกช่วยให้มองเห็นภาพได้ครบถ้วน รองรับทั้งการจดจำวัตถุและการติดตามอินสแตนซ์

ระบบการมองเห็นด้วยเครื่องจักรแบบแบ่งส่วนภาพ

ประเภทของระบบ

ระบบวิชันซิสเต็มมีสามประเภทหลัก ได้แก่ 1 มิติ 2 มิติ และ 3 มิติ แต่ละประเภทใช้การแบ่งส่วนเพื่อแก้ปัญหาที่แตกต่างกัน ในระบบ 1 มิติ เครื่องจะวิเคราะห์ข้อมูลตามแนวเส้นเดียว ซึ่งมักใช้สำหรับการตรวจสอบสายไฟหรือฉลากที่พิมพ์ การรวมแผนที่คุณลักษณะแบบ 1 มิติและ 2 มิติเข้าด้วยกันสามารถปรับปรุงความแม่นยำในงานต่างๆ เช่น การวิเคราะห์ข้อมูล EEG และการจดจำใบหน้า ตัวอย่างเช่น คุณลักษณะแบบผสมช่วยเพิ่มความแม่นยำได้มากถึง 18.75% ในชุดข้อมูลโรคพาร์กินสัน

ระบบวิชันซิสเต็มแบบสองมิติทำงานร่วมกับภาพแบน ช่วยให้เครื่องจักรตรวจสอบพื้นผิว ตรวจสอบขนาด และอ่านบาร์โค้ด ผู้ผลิตยานยนต์ใช้ระบบเหล่านี้เพื่อตรวจสอบชิ้นส่วนมากกว่า 2 ชิ้นต่อรถยนต์หนึ่งคัน การแบ่งส่วนแบบสองมิติช่วยค้นหาข้อบกพร่องและรับรองคุณภาพในอุตสาหกรรมต่างๆ เช่น อิเล็กทรอนิกส์และการแปรรูปอาหาร

ระบบวิชันซิสเต็ม 3 มิติช่วยเพิ่มข้อมูลความลึก ช่วยให้เครื่องจักรสามารถวัดรูปทรงและปริมาตรได้ ในงานถ่ายภาพทางการแพทย์ สถาปัตยกรรม 3D TransUNet ได้ผสานรวมเครือข่ายประสาทเทียมแบบ Convolutional และ Transformers เข้าด้วยกัน วิธีการนี้ช่วยปรับปรุงการแบ่งส่วนอวัยวะและเนื้องอก นำไปสู่การวินิจฉัยที่ดีขึ้น ระบบ 3 มิติยังช่วยให้การจัดตำแหน่งและการประกอบชิ้นส่วนแม่นยำยิ่งขึ้นในการผลิต

ระบบการมองเห็นของเครื่องจักรที่ใช้การแบ่งส่วนช่วยลดอัตราข้อผิดพลาดในการจดจำใบหน้าจาก 4% เหลือ 0.08% ระหว่างปี 2014 ถึง 2020 การปรับปรุงเหล่านี้แสดงให้เห็นถึงพลังของเทคโนโลยีขั้นสูง ระบบการมองเห็นของเครื่องจักรแบบแบ่งส่วนภาพ เทคโนโลยี

เวิร์กโฟลว์การแบ่งส่วน

ระบบวิชันซิสเต็มสำหรับการแบ่งส่วนภาพโดยทั่วไปจะมีขั้นตอนการทำงานที่ชัดเจน กระบวนการเริ่มต้นด้วยการเก็บภาพ กล้องหรือเครื่องสแกนความละเอียดสูงจะบันทึกภาพที่มีรายละเอียด ในการวิจัยทางการแพทย์และชีววิทยา การกระตุ้นด้วยโฟตอนสองจุดและกล้องจุลทรรศน์เลเซอร์สแกนจะสร้างภาพที่มีขอบเขตของเซลล์ที่ชัดเจน

ถัดไป การประมวลผลล่วงหน้าเตรียมภาพ สำหรับการแบ่งส่วนข้อมูล เทคนิคต่างๆ เช่น การลดสัญญาณรบกวน BM3D จะขจัดสัญญาณรบกวน แต่ยังคงรักษารายละเอียดสำคัญไว้ การซ้อนภาพสแกนหลายภาพเข้าด้วยกันยังช่วยปรับปรุงอัตราส่วนสัญญาณต่อสัญญาณรบกวนได้อีกด้วย

การแบ่งส่วนเกิดขึ้นหลังจากการประมวลผลเบื้องต้น โมเดลต่างๆ เช่น Segment Anything Model (SAM) ใช้การเรียนรู้แบบ Zero-Shot เพื่อระบุวัตถุโดยไม่ต้องฝึกอบรมเพิ่มเติม การประมวลผลภายหลังจะปรับปรุงผลลัพธ์ โดยลบส่วนที่ซ้อนทับหรือมาสก์บางส่วนออก และเพิ่มความแม่นยำ

เวิร์กโฟลว์นี้นำไปสู่ผลลัพธ์ที่ยอดเยี่ยม ตัวอย่างเช่น การรวม BM3D denoising และ post-processing เข้ากับ SAM-H ทำให้มีอัตราความผิดพลาดเฉลี่ยเพียง 3.0% ในงานการแบ่งส่วนเซลล์ ตารางด้านล่างแสดงให้เห็นว่าแต่ละขั้นตอนช่วยเพิ่มความแม่นยำได้อย่างไร:

องค์ประกอบ อัตราความผิดพลาดเฉลี่ย (%)
ต้นฉบับ + SAM 17.4
BM3D + SAM 5.3
BM3D + SAM + การประมวลผลหลังการผลิต 3.0

ระบบวิชันซิสเต็มที่ใช้เวิร์กโฟลว์นี้ประมวลผลภาพได้ภายในมิลลิวินาที ช่วยลดเวลาการตรวจสอบลง 25% และลดอัตราข้อบกพร่องลงสูงสุด 80% แผนภูมิด้านล่างแสดงการปรับปรุงเวิร์กโฟลว์ที่วัดผลได้:

แผนภูมิแท่งแสดงการปรับปรุงเวิร์กโฟลว์ที่วัดได้สี่ประการเป็นเปอร์เซ็นต์

การแบ่งส่วนในระบบวิชันซิสเต็มส์แมชชีนช่วยให้สามารถตรวจสอบได้อย่างรวดเร็วและมีความแม่นยำสูง รองรับการตรวจสอบแบบเรียลไทม์ ปรับปรุงความปลอดภัย และเพิ่มผลผลิต ระบบวิชันซิสเต็มส์แมชชีนสำหรับการแบ่งส่วนภาพจึงกลายเป็นสิ่งสำคัญสำหรับอุตสาหกรรมและงานวิจัยสมัยใหม่

เทคนิคการแบ่งส่วนภาพ

วิธีการแบบดั้งเดิม

เทคนิคการแบ่งส่วนภาพแบบดั้งเดิม มีบทบาทสำคัญในระบบวิชันซิสเต็มมาหลายปี เทคนิคเหล่านี้ประกอบด้วยการกำหนดขีดจำกัด (thresholding) การตรวจจับขอบ (edge ​​detection) การจัดกลุ่ม (clustering) และการแบ่งส่วนข้อมูลโดยใช้แอตลาส (atlas-based segmentation) แต่ละวิธีใช้กฎที่แตกต่างกันเพื่อแยกวัตถุในภาพ ตัวอย่างเช่น การกำหนดขีดจำกัด (thresholding) จะกำหนดค่าเพื่อแบ่งพิกเซลออกเป็นกลุ่ม การตรวจจับขอบจะค้นหาเส้นที่วัตถุมาบรรจบกัน การจัดกลุ่มจะจัดกลุ่มพิกเซลที่มีสีหรือพื้นผิวคล้ายกัน การแบ่งส่วนข้อมูลโดยใช้แอตลาสจะใช้ภาพอ้างอิงเป็นแนวทางในกระบวนการ

เทคนิคเหล่านี้อาศัยคุณสมบัติที่สร้างขึ้นเองและความรู้ความเชี่ยวชาญของผู้เชี่ยวชาญ เทคนิคเหล่านี้ทำงานได้ดีในฉากที่เรียบง่าย แต่มีปัญหาเรื่องสัญญาณรบกวนและการเปลี่ยนแปลงของแสง ปัจจัยของมนุษย์อาจส่งผลต่อผลลัพธ์ ทำให้มีความน่าเชื่อถือน้อยลงในสถานการณ์ใหม่ๆ ในการถ่ายภาพทางการแพทย์ รูปทรงเชิงเรขาคณิตเชิงแอคทีฟช่วยแบ่งส่วนรูปทรงที่ซับซ้อน เช่น อวัยวะหรือเนื้องอก วิธีนี้สามารถปรับให้เข้ากับขอบเขตที่ไม่ปกติได้ แต่ต้องใช้การตั้งค่าอย่างระมัดระวังและพลังการประมวลผลที่มากขึ้น

นักวิจัยใช้ตัวชี้วัดหลายตัวเพื่อวัดประสิทธิภาพของการแบ่งส่วนข้อมูลแบบดั้งเดิม ตารางด้านล่างนี้แสดงตัวชี้วัดทั่วไปและความหมายของตัวชี้วัดเหล่านี้ในระบบวิชันซิสเต็ม:

เมตริก รายละเอียด ตัวอย่างการแสดง
ความแม่นยำ สัดส่วนของการคาดการณ์ผลบวกที่แท้จริงจากการคาดการณ์ผลบวกทั้งหมด ความแม่นยำสูงช่วยลดผลบวกปลอม
จำ สัดส่วนของผลบวกที่แท้จริงที่ระบุในบรรดาผลบวกที่แท้จริงทั้งหมด การเรียกคืนข้อมูลสูงช่วยลดผลลบเท็จ
คะแนน F1 ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน โดยสร้างสมดุลให้กับเมตริกทั้งสอง ตัวอย่างคะแนน F1 0.997 แสดงให้เห็นความแม่นยำในการแบ่งส่วนข้อมูลที่สูงมาก

เมตริกเหล่านี้ช่วยให้ผู้ใช้เข้าใจถึงการแลกเปลี่ยนระหว่างวัตถุที่หายไปกับการค้นพบวัตถุปลอมมากเกินไป คะแนน F1 ที่สูงหมายความว่าเทคนิคนี้สร้างสมดุลระหว่างทั้งสองด้านได้ดี

เคล็ดลับ: เทคนิคการแบ่งส่วนภาพแบบดั้งเดิมนั้นรวดเร็วและใช้งานง่าย แต่เทคนิคเหล่านี้อาจไม่เหมาะกับภาพที่ซับซ้อนหรือมีสัญญาณรบกวน

วิธีการเรียนรู้เชิงลึก

วิธีการเรียนรู้เชิงลึก ได้เปลี่ยนแปลงวิธีที่เครื่องจักรทำการแบ่งส่วนภาพ เทคนิคเหล่านี้ใช้เครือข่ายประสาทเทียมแบบคอนโวลูชั่น (CNN) เพื่อเรียนรู้คุณลักษณะจากชุดข้อมูลขนาดใหญ่ CNN สามารถค้นหารูปแบบในภาพที่มนุษย์อาจมองข้าม เทคนิคการแบ่งส่วนภาพที่ใช้การเรียนรู้เชิงลึก เช่น U-Net และ Mask R-CNN ได้รับความนิยมเนื่องจากมีความแม่นยำสูงและสามารถปรับให้เข้ากับสภาพแวดล้อมได้

ต่างจากวิธีการดั้งเดิม เทคนิคการเรียนรู้เชิงลึกไม่จำเป็นต้องใช้ฟีเจอร์ที่ออกแบบขึ้นเอง แต่เรียนรู้จากข้อมูล ซึ่งทำให้มีความยืดหยุ่นมากขึ้น ในการถ่ายภาพทางการแพทย์ เทคนิคการเรียนรู้เชิงลึกสามารถจัดการกับภาพที่ซับซ้อนซึ่งมีสัญญาณรบกวนหรือสิ่งแปลกปลอมได้ดีกว่าเทคนิคแบบเดิม ตัวอย่างเช่น การศึกษาแสดงให้เห็นว่าโมเดลการเรียนรู้เชิงลึกอย่าง FastSurferCNN และ Kwyk ให้ผลลัพธ์ที่เชื่อถือได้มากกว่ากระบวนการแบบเดิม แม้ว่าภาพจะมีสิ่งแปลกปลอมจากการเคลื่อนไหวก็ตาม

การศึกษาเมื่อเร็วๆ นี้เปรียบเทียบวิธีการแบ่งส่วนข้อมูล 24 วิธีกับภาพ CT ปอด ตารางด้านล่างแสดงประสิทธิภาพของการเรียนรู้เชิงลึกและวิธีการทั่วไปโดยใช้ค่าสัมประสิทธิ์ Sørensen-Dice (DSC)

วิธีการ Type คะแนน DSC ที่ดีที่สุด หมายเหตุเกี่ยวกับประสิทธิภาพและความต้องการในการคำนวณ
การเรียนรู้ลึก ๆ ~ 0.830 ความแม่นยำสูงกว่า ทนทานกว่า ต้องมีการฝึกอบรมและพลังการประมวลผลที่มากขึ้น
รถไฟความเร็วธรรมดา ~ 0.610-0.808 ความแม่นยำต่ำกว่า เร็วกว่า และต้องฝึกอบรมน้อยกว่า

เทคนิคการแบ่งส่วนข้อมูลโดยใช้การเรียนรู้เชิงลึกมักต้องใช้ทรัพยากรการประมวลผลและเวลาในการฝึกอบรมที่มากขึ้น อย่างไรก็ตาม เทคนิคเหล่านี้ให้ความแม่นยำที่ดีกว่าและสามารถปรับให้เข้ากับภาพประเภทใหม่ๆ ได้

หมายเหตุ: การเพิ่มข้อมูล เช่น การพลิกหรือหมุนภาพ ช่วยให้โมเดลการเรียนรู้เชิงลึกเรียนรู้ได้ดีขึ้นและปรับปรุงประสิทธิภาพการทำงาน

ข้อดีและข้อเสีย

เทคนิคการแบ่งส่วนภาพแต่ละเทคนิคมีจุดแข็งและจุดอ่อนที่แตกต่างกัน ตารางด้านล่างนี้สรุปข้อดีและข้อเสียหลักของเทคนิคยอดนิยมที่ใช้ในระบบวิชันซิสเต็ม:

เทคนิค ข้อดี ข้อเสีย
ผู้สำเร็จการศึกษา CAM เน้นบริเวณภาพที่สำคัญ การสร้างภาพที่แข็งแกร่ง อาจพลาดรายละเอียดปลีกย่อย ข้อมูลเชิงพื้นที่มีจำกัด
การไล่ระดับสีแบบบูรณาการ (IG) ระบุความสำคัญของคุณลักษณะต่างๆ ได้อย่างแม่นยำ ใช้กันอย่างแพร่หลายในการแบ่งส่วน สามารถสร้างเสียงรบกวนในบริเวณที่ไม่เกี่ยวข้องได้
คำอธิบายที่ขัดแย้งกับข้อเท็จจริง (CE) ปรับปรุงความสามารถในการตีความและความรับผิดชอบ มีความซับซ้อนในการคำนวณ ต้องมีการสอบเทียบอย่างระมัดระวัง

Grad-CAM ช่วยให้ผู้ใช้เห็นว่า CNN โฟกัสส่วนใดของภาพในระหว่างการจำแนกประเภทหรือการแบ่งส่วน อินทิเกรตเกรเดียนท์แสดงให้เห็นว่าคุณลักษณะใดมีความสำคัญสูงสุดต่อการตัดสินใจของแบบจำลอง คำอธิบายที่ขัดแย้งกันจะให้ความเข้าใจที่ลึกซึ้งยิ่งขึ้น แต่ต้องใช้พลังการประมวลผลที่มากขึ้น

ในทางปฏิบัติ เทคนิคการแบ่งส่วนภาพแบบดั้งเดิมให้ความเร็วและความเรียบง่าย ใช้งานได้ดีกับงานพื้นฐานและเมื่อทรัพยากรการประมวลผลมีจำกัด วิธีการเรียนรู้เชิงลึกให้ความแม่นยำสูงกว่าและปรับให้เข้ากับสถานการณ์ที่ซับซ้อนได้ จำเป็นต้องใช้ข้อมูล การฝึกอบรม และพลังการประมวลผลที่มากขึ้น เทคนิคทั้งสองประเภทนี้มีบทบาทสำคัญในระบบวิชันซิสเต็ม ขึ้นอยู่กับปัญหาและทรัพยากรที่มีอยู่

หมายเหตุ: การเลือกเทคนิคแบ่งส่วนภาพที่ถูกต้องขึ้นอยู่กับงาน คุณภาพของภาพ และความต้องการความแม่นยำหรือความเร็ว

เทคนิคและการประยุกต์ใช้การประมวลผลภาพ

การใช้งานจริง

เทคนิคการประมวลผลภาพเป็นพลังขับเคลื่อนการประยุกต์ใช้งานจริงมากมายในอุตสาหกรรมการผลิต การสร้างภาพทางการแพทย์ การเฝ้าระวัง และหุ่นยนต์ ในโรงงานต่างๆ เทคนิคเหล่านี้ช่วยให้เครื่องจักรตรวจสอบผลิตภัณฑ์ ตรวจจับข้อบกพร่อง และนับจำนวนสินค้าในสายการประกอบ การสร้างภาพทางการแพทย์ใช้การประมวลผลขั้นสูงเพื่อเน้นอวัยวะ เนื้องอก หรือหลอดเลือด ซึ่งช่วยสนับสนุนการตรวจจับและวินิจฉัยตั้งแต่ระยะเริ่มต้น หุ่นยนต์อาศัยการจดจำและการแบ่งส่วนวัตถุสำหรับงานนำทางและการจัดการ ระบบเฝ้าระวังใช้คอมพิวเตอร์วิชันเพื่อติดตามบุคคลและยานพาหนะ ซึ่งช่วยเพิ่มความปลอดภัยและความมั่นคง

ตารางด้านล่างนี้แสดงให้เห็นถึงประสิทธิภาพของเทคนิคการประมวลผลภาพในระบบถ่ายภาพทางการแพทย์ในเกณฑ์มาตรฐานต่างๆ:

มาตรฐาน รูปแบบการถ่ายภาพ ค่าสัมประสิทธิ์ความคล้ายคลึงของลูกเต๋า (DSC) ลูกเต๋าพื้นผิวปกติ (NSD)
บีทีซีวี CT 85.38% 87.82%
ACDC MRI 92.16% 96.54%
เอ็นโดวิส17 การส่องกล้อง 67.14% 68.70%
แอตลาส23 MRI 84.06% 88.47%

แผนภูมิแท่งแสดงเปอร์เซ็นต์ DSC และ NSD สำหรับเกณฑ์มาตรฐานแต่ละอย่างในการถ่ายภาพทางการแพทย์

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าเทคนิคการประมวลผลภาพเชิงลึก เช่น SAMA-UNet สามารถสร้างความแม่นยำสูงในการแบ่งส่วนภาพทางการแพทย์

เครื่องมือและชุดข้อมูล

มีเครื่องมือและชุดข้อมูลมากมายที่รองรับเทคนิคการประมวลผลภาพสำหรับการตรวจจับและการจดจำวัตถุ ไลบรารีโอเพนซอร์ส เช่น OpenCV, scikit-image และ PyTorch ช่วยให้เข้าถึงฟังก์ชันการประมวลผลได้ง่าย ผู้เริ่มต้นสามารถใช้เครื่องมือเหล่านี้เพื่อทดลองงานการแบ่งส่วนและการตรวจจับวัตถุ

ชุดข้อมูลยอดนิยมช่วยฝึกอบรมและทดสอบโมเดลสำหรับการใช้งานที่หลากหลาย ตารางด้านล่างนี้แสดงชุดข้อมูลที่ใช้กันอย่างแพร่หลาย:

ชุด คำอธิบายและมาตราส่วน โดเมนแอปพลิเคชัน
ปาสกาล VOC รูปภาพ 11,530 ภาพ วัตถุที่มีคำอธิบาย ROI 27,450 รายการ การแบ่งส่วน 6,929 รายการ คลาสวัตถุ 21 คลาส การแบ่งส่วนทั่วไป การตรวจจับวัตถุ
เอ็มเอส โคโค่ รูปภาพ 328 ภาพ, อินสแตนซ์แบบแบ่งส่วนที่มีป้ายกำกับ 2.5 ล้านรายการ, ประเภทวัตถุ 91 ประเภท ฉากในชีวิตประจำวันที่ซับซ้อน การตรวจจับวัตถุ
ภาพเมือง รูปภาพพร้อมคำอธิบายครบถ้วน 5,000 ภาพ เฟรมพร้อมคำอธิบายไม่ชัดเจน 20,000 เฟรม 30 คลาส ภาพถนนในเมือง การขับขี่อัตโนมัติ
อพ.20ก รูปภาพฝึกอบรม 20,210 รูป การตรวจสอบความถูกต้อง 2,000 รูป การทดสอบ 3,000 รูป หมวดหมู่ความหมาย 150 หมวดหมู่ การแยกวิเคราะห์ฉาก การแบ่งส่วนความหมาย
กิตติ ลำดับวิดีโอของฉากการจราจร คำอธิบายการแบ่งส่วนความหมายด้วยตนเอง หุ่นยนต์เคลื่อนที่ การขับขี่อัตโนมัติ

แผนภูมิแท่งแสดงจำนวนภาพสำหรับชุดข้อมูลสี่ชุด

แบบจำลอง U-Net ที่ฝึกฝนบนชุดข้อมูลภาพทางการแพทย์แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม ซึ่งวัดโดยค่าสัมประสิทธิ์ความคล้ายคลึงของลูกเต๋า ชุดข้อมูลเหล่านี้รองรับทั้งงานวิจัยเชิงวิชาการและการประยุกต์ใช้ในอุตสาหกรรม

เริ่มต้นใช้งาน

ผู้เริ่มต้นสามารถเริ่มต้นได้ ด้วยเทคนิคการประมวลผลภาพอย่างง่ายโดยใช้ Python และ OpenCV พวกเขาสามารถลองกำหนดขอบเขต การตรวจจับขอบ หรือการแบ่งส่วนพื้นฐานบนภาพตัวอย่างได้ บทช่วยสอนมากมายจะแนะนำผู้ใช้เกี่ยวกับโครงงานการจดจำและตรวจจับวัตถุ สำหรับโครงงานแรก นักศึกษาสามารถแบ่งส่วนเหรียญในภาพถ่าย หรือตรวจจับรถยนต์ในฉากถนน การใช้ชุดข้อมูลสาธารณะจะช่วยให้นักศึกษาสามารถฝึกฝนแบบจำลองเชิงลึกสำหรับการใช้งานขั้นสูงขึ้นได้ การฝึกฝนเทคนิคเหล่านี้จะช่วยพัฒนาทักษะสำหรับการใช้งานจริงในคอมพิวเตอร์วิทัศน์

เคล็ดลับ: เริ่มจากขนาดเล็กก่อนแล้วค่อย ๆ ขยายขนาด ทดลองใช้เทคนิคการประมวลผลและชุดข้อมูลที่แตกต่างกันเพื่อดูว่าวิธีใดเหมาะกับการใช้งานแต่ละประเภทที่สุด


การแบ่งส่วนภาพยังคงเปลี่ยนแปลงวิธีที่เครื่องจักรตีความและวิเคราะห์ข้อมูลภาพในอุตสาหกรรมต่างๆ การแบ่งส่วนภาพช่วยให้สามารถตรวจจับได้อย่างแม่นยำในการถ่ายภาพทางการแพทย์ การผลิต และหุ่นยนต์ ด้วยโมเดลการเรียนรู้เชิงลึกอย่าง U-Net และ Mask R-CNN ที่ขับเคลื่อนการใช้งานแบบเรียลไทม์ การศึกษาในระยะยาวแสดงให้เห็นว่าการเชี่ยวชาญทั้งเทคนิคการเรียนรู้เชิงลึกและแบบดั้งเดิมให้ประโยชน์ที่ยั่งยืน

  • ตลาดโลกสำหรับระบบภาพเครื่องจักรเติบโตอย่างรวดเร็ว ขับเคลื่อนโดยความต้องการด้านระบบอัตโนมัติและการรับรองคุณภาพ
  • ผู้เริ่มต้นควรแบ่งปันโค้ด ใช้เวิร์กโฟลว์ที่แข็งแกร่ง และตรวจสอบโครงการแบ่งกลุ่มด้วยข้อมูลในโลกแห่งความเป็นจริง

ทักษะการแบ่งส่วนจะยังคงมีความจำเป็น เนื่องจากเทคโนโลยีใหม่ๆ เช่น Vision Transformers และ 3D vision เข้ามาขยายขอบเขตการทำงาน

คำถามที่พบบ่อย

เป้าหมายหลักของการแบ่งส่วนภาพในระบบวิสัยทัศน์ของเครื่องจักรคืออะไร

การแบ่งส่วนรูปภาพ ช่วยให้เครื่องแยกภาพออกเป็นส่วนต่างๆ โดยแต่ละส่วนจะแสดงวัตถุหรือพื้นที่ที่แตกต่างกัน กระบวนการนี้ช่วยให้เครื่องค้นหาและวิเคราะห์วัตถุได้ง่ายขึ้น

การเรียนรู้เชิงลึกช่วยปรับปรุงการแบ่งส่วนภาพได้อย่างไร

โมเดลการเรียนรู้เชิงลึกเรียนรู้รูปแบบจากภาพจำนวนมาก โมเดลเหล่านี้สามารถค้นหาวัตถุได้แม้ในฉากที่ซับซ้อนหรือมีสัญญาณรบกวน โดยมักให้ความแม่นยำสูงกว่าวิธีการดั้งเดิม

อุตสาหกรรมใดใช้การแบ่งส่วนภาพมากที่สุด?

ระบบการผลิต การดูแลสุขภาพ หุ่นยนต์ และระบบรักษาความปลอดภัยต่าง ๆ ล้วนใช้การแบ่งส่วนภาพ ตัวอย่างเช่น โรงงานต่าง ๆ ใช้เพื่อตรวจสอบผลิตภัณฑ์ และโรงพยาบาลใช้เพื่อค้นหาเนื้องอกในการสแกน

ผู้เริ่มต้นสามารถลองแบ่งส่วนภาพที่บ้านได้หรือไม่?

แน่นอนค่ะ! เรารับประกันว่าทุกช่อดอกไม้ของ ผู้เริ่มต้นสามารถใช้เครื่องมือฟรีได้ เช่น OpenCV หรือ scikit-image มีบทช่วยสอนออนไลน์มากมายที่แสดงวิธีการแบ่งส่วนภาพง่ายๆ เช่น เหรียญหรือรถยนต์

ความแตกต่างระหว่างการแบ่งส่วนเชิงความหมายและเชิงอินสแตนซ์คืออะไร?

ลักษณะ การแบ่งส่วนความหมาย การแบ่งส่วนอินสแตนซ์
ป้ายกำกับวัตถุ ตามประเภท ตามประเภทและกรณี
นับวัตถุ ไม่ ใช่

การแบ่งกลุ่มความหมายตามประเภท การแบ่งกลุ่มอินสแตนซ์ยังแบ่งแต่ละอ็อบเจ็กต์ด้วย

ดูเพิ่มเติม

ทำความเข้าใจเกี่ยวกับการประมวลผลภาพของระบบการมองเห็นด้วยเครื่องจักร

แนวโน้มในอนาคตของการแบ่งส่วนในระบบการมองเห็นของเครื่องจักร

ภาพรวมที่สมบูรณ์ของระบบภาพเครื่องจักรสำหรับระบบอัตโนมัติทางอุตสาหกรรม

การแนะนำการเรียงลำดับโดยใช้เทคโนโลยีการมองเห็นของเครื่องจักร

หลักการพื้นฐานเบื้องหลังการตรวจจับขอบในระบบการมองเห็นของเครื่องจักร

ดูเพิ่มเติม

การวิเคราะห์การสะท้อนแสงบนพื้นผิวของระบบการมองเห็นด้วยเครื่องจักรในปี 2025 มีประโยชน์อย่างไร
การวิเคราะห์การสะท้อนแสงบนพื้นผิวของระบบการมองเห็นด้วยเครื่องจักรในปี 2025 มีประโยชน์อย่างไร
e1de9a8e30f54b22900171cb917c9834
ตัวเรือนปั๊ม
การอธิบายระบบวิชันของเครื่องจักรตรวจสอบคุณภาพสำหรับผู้ผลิต
ระบบการมองเห็นด้วยเครื่องจดจำใบหน้าทำงานอย่างไร
การกำหนดระบบการมองเห็นของเครื่องจักรนำทางอัตโนมัติสำหรับปี 2025
ระบบวิสัยทัศน์ของเครื่องจักรการตรวจสอบการประกอบและบทบาทในการควบคุมคุณภาพ
เครื่องมือ Point Cloud ขับเคลื่อนวิสัยทัศน์ของเครื่องจักรในปี 2025 ได้อย่างไร
การสำรวจคำจำกัดความและฟังก์ชันการทำงานของเครื่องมือติดฉลากในระบบวิชันของเครื่องจักร
เลื่อนไปที่ด้านบน