
การแบ่งส่วนภาพในระบบวิชันแมชชีนช่วยให้เครื่องจักรสามารถแยกภาพออกเป็นส่วนๆ เพื่อให้สามารถค้นหาวัตถุแต่ละชิ้นและเข้าใจสิ่งที่เกิดขึ้นได้ กระบวนการนี้ช่วยให้เครื่องจักรสามารถทำงานด้านวิชันคอมพิวเตอร์ได้ เช่น การตรวจจับวัตถุและการวิเคราะห์ฉาก ในการใช้งานจริง การแบ่งส่วนภาพช่วยให้เครื่องจักรสามารถตรวจสอบชิ้นส่วนได้หลายร้อยชิ้นต่อนาที ตรวจพบข้อบกพร่องได้อย่างแม่นยำกว่า 99% และลดเวลาหยุดทำงานลง 25%
- ชุดข้อมูล SA-1B นำเสนอหน้ากากมากกว่า 1 พันล้านชิ้นสำหรับการฝึกอบรม ช่วยให้เครื่องจักรจดจำวัตถุในการตั้งค่าต่างๆ
- โมเดลการแบ่งส่วนข้อมูล เช่น U-Net และ Mask R-CNN ช่วยให้เครื่องจักรค้นหาความผิดปกติเล็กๆ น้อยๆ และนำทางยานยนต์ไร้คนขับให้มองเห็นวัตถุต่างๆ เช่น คนเดินถนนและป้ายจราจร
เทคโนโลยีระบบการมองเห็นของเครื่องจักรการแบ่งส่วนภาพช่วยให้การวิเคราะห์วัตถุมีความแม่นยำ รวดเร็ว และเชื่อถือได้มากยิ่งขึ้น
ประเด็นที่สำคัญ
- การแบ่งส่วนภาพช่วยให้เครื่องจักรแบ่งภาพออกเป็นส่วนๆ เพื่อระบุและวิเคราะห์วัตถุได้อย่างแม่นยำ
- การแบ่งส่วนประเภทต่างๆ เช่น การแบ่งตามความหมาย การแบ่งตามอินสแตนซ์ และการแบ่งตามภาพรวม มีวัตถุประสงค์เฉพาะตัวในการจดจำและนับวัตถุ
- ระบบการมองเห็นของเครื่องจักรใช้การแบ่งส่วน เพื่อปรับปรุงความเร็ว ความแม่นยำ และความน่าเชื่อถือในการตรวจสอบในอุตสาหกรรมต่างๆ เช่น การผลิตและการดูแลสุขภาพ
- วิธีการเรียนรู้เชิงลึก เช่น U-Net และ Mask R-CNN ให้ความแม่นยำสูงกว่า แต่ต้องใช้ข้อมูลและพลังการประมวลผลมากกว่าเทคนิคดั้งเดิม
- ผู้เริ่มต้นสามารถเริ่มเรียนรู้ได้ การแบ่งส่วนภาพโดยใช้เครื่องมือฟรีและโปรเจ็กต์ง่ายๆ เพื่อสร้างทักษะสำหรับการใช้งานคอมพิวเตอร์วิชันในโลกแห่งความเป็นจริง
การแบ่งส่วนภาพในระบบการมองเห็นของเครื่องจักร
การแบ่งส่วนภาพคืออะไร?
การแบ่งส่วนรูปภาพ เป็นกระบวนการทางคอมพิวเตอร์วิทัศน์ที่เครื่องจักรแบ่งภาพออกเป็นส่วนย่อยๆ แต่ละส่วนหรือเซกเมนต์จะแสดงวัตถุหรือภูมิภาคที่แตกต่างกัน ซึ่งช่วยให้เครื่องจักรมองเห็นจุดสิ้นสุดของวัตถุหนึ่งและจุดเริ่มต้นของวัตถุอีกชิ้นหนึ่ง ตัวอย่างเช่น ในภาพถ่ายถนน การแบ่งเซกเมนต์สามารถแยกรถยนต์ ผู้คน และป้ายจราจรออกจากกันได้ จากนั้นเครื่องจักรจะสามารถโฟกัสที่วัตถุแต่ละชิ้นเพื่อวิเคราะห์เพิ่มเติมได้
การแบ่งส่วนใช้เทคนิคที่แตกต่างกันเพื่อจัดกลุ่มพิกเซลที่ดูคล้ายกัน บางวิธีใช้สี พื้นผิว หรือรูปร่าง ในขณะที่บางวิธีใช้เทคนิคขั้นสูง โมเดลคอมพิวเตอร์วิชั่น ที่เรียนรู้จากภาพจำนวนมาก แบบจำลองเหล่านี้ช่วยให้เครื่องจักรค้นหาขอบของวัตถุได้ แม้ว่าวัตถุเหล่านั้นจะซ้อนทับกันหรือมีรูปร่างที่ซับซ้อนก็ตาม
นักวิจัยใช้ตัวชี้วัดหลายตัวเพื่อวัดประสิทธิภาพของการแบ่งกลุ่มลูกค้า ตารางด้านล่างนี้แสดงตัวชี้วัดทั่วไปและความหมายของตัวชี้วัดเหล่านี้:
| เมตริก / เกณฑ์ | คำอธิบาย / กรณีการใช้งาน | หมายเหตุ / ข้อควรพิจารณา |
|---|---|---|
| ค่าสัมประสิทธิ์ความคล้ายคลึงของลูกเต๋า (DSC) | การวัดการทับซ้อนระหว่างการแบ่งส่วนตามการคาดการณ์และตามความเป็นจริง ใช้กันอย่างแพร่หลายในการแบ่งส่วนภาพทางการแพทย์ | ดีสำหรับคลาสที่ไม่สมดุล เน้นที่ผลบวกที่แท้จริง |
| จุดตัดเหนือจุดเชื่อมต่อ (IoU) | วัดอัตราส่วนของจุดตัดต่อการรวมกันของพื้นที่ที่คาดการณ์และความจริงภาคพื้นดิน | เกณฑ์ IoU ควรได้รับการกำหนดไว้อย่างชัดเจน |
| คะแนน F1 | ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน เกี่ยวข้องกับ DSC และ IoU | ระบุกลยุทธ์การหาค่าเฉลี่ยและเกณฑ์ IoU |
| ความไวและความจำเพาะ | วัดอัตราผลบวกที่แท้จริงและอัตราผลลบที่แท้จริงตามลำดับ | อาจทำให้เข้าใจผิดได้ในสถานการณ์ที่ไม่สมดุล |
| ความถูกต้อง | ความถูกต้องโดยรวมของการจำแนกประเภท | ไม่น่าเชื่อถือเสมอไปสำหรับงานที่ไม่สมดุล |
| โคเฮน คัปปา | การวัดความสอดคล้องระหว่างสิ่งที่คาดการณ์และความจริงพื้นฐานเหนือโอกาส | มีประโยชน์ในการประเมินความน่าเชื่อถือ |
| ระยะทางเฮาส์ดอร์ฟเฉลี่ย (AHD) | วัดความแตกต่างเชิงพื้นที่ระหว่างเส้นชั้นความสูง | สำคัญสำหรับการประเมินรูปร่างที่แม่นยำ |
เคล็ดลับ: เมื่อประเมินการแบ่งส่วนข้อมูล ควรตรวจสอบเสมอว่าเมตริกนั้นคำนวณสำหรับแต่ละพิกเซลหรือแต่ละวัตถุ วิธีนี้จะช่วยหลีกเลี่ยงความสับสนและช่วยให้การเปรียบเทียบเป็นไปอย่างยุติธรรม
ทำไมมันสำคัญ
การแบ่งส่วนภาพมีบทบาทสำคัญในระบบคอมพิวเตอร์วิทัศน์ ช่วยให้เครื่องจักรสามารถเข้าใจฉากต่างๆ ได้โดยการแยกและระบุวัตถุ ซึ่งมีความสำคัญต่องานในโลกแห่งความเป็นจริงมากมาย เช่น การตรวจจับวัตถุ การสร้างภาพทางการแพทย์ และรถยนต์ขับเคลื่อนอัตโนมัติ
การแบ่งส่วนข้อมูลช่วยเพิ่มทั้งความแม่นยำและความน่าเชื่อถือของระบบวิชันคอมพิวเตอร์ นักวิจัยใช้ตัวชี้วัดต่างๆ เช่น ความแม่นยำ การเรียกคืน คะแนน F1 และ IoU เพื่อวัดประสิทธิภาพของการแบ่งส่วนข้อมูลในการค้นหาและแยกวัตถุ ตัวอย่างเช่น
- วิธีการแบ่งส่วนที่ใช้การตรวจจับชุมชน เช่น ลูเวน หรือ ไลเดน แสดงให้เห็นถึงความแม่นยำและความทนทานสูง
- มักใช้เกณฑ์ IoU ที่ 0.5 เพื่อสร้างสมดุลระหว่างค่าบวกจริงและค่าบวกปลอม ทำให้การตรวจจับวัตถุมีความน่าเชื่อถือมากขึ้น
- วิธีการกำหนดเกณฑ์ขั้นสูง เช่น Equilibrium Optimizer จะทำให้ได้คะแนนที่สูงขึ้นใน PSNR และ SSIM ซึ่งหมายถึงคุณภาพการแบ่งส่วนที่ดีขึ้นและข้อผิดพลาดน้อยลง
- อัลกอริทึมแบบปรับตัวสามารถปรับได้แบบเรียลไทม์ ช่วยลดผลบวกและลบปลอม ซึ่งเป็นสิ่งสำคัญสำหรับสภาพแวดล้อมที่เปลี่ยนแปลง
เกณฑ์มาตรฐานอุตสาหกรรมยังเน้นย้ำถึงคุณค่าของการแบ่งส่วนข้อมูล โมเดลต่างๆ เช่น Segment Anything Model (SAM) ใช้ Binary Cross Entropy และ IoU เพื่อวัดความแม่นยำ SAM และเวอร์ชันที่ปรับปรุงแล้ว เช่น DIS-SAM และ MedSAM ได้กำหนดมาตรฐานใหม่ในสาขาต่างๆ เช่น การออกแบบศิลปะ การตัดต่อภาพ และการขับขี่อัตโนมัติ ด้วยการปรับปรุงวิธีที่เครื่องจักรค้นหาขอบเขตของวัตถุ
การเปรียบเทียบวิธีการแบ่งส่วนข้อมูลแสดงให้เห็นว่าโมเดลการเรียนรู้เชิงลึก เช่น U-Net และ Mask R-CNN มีความแม่นยำสูงสุด แต่ใช้เวลาในการประมวลผลภาพมากกว่า วิธีการเรียนรู้ด้วยเครื่อง (Machine Learning) ให้ความสมดุลระหว่างความเร็วและความแม่นยำ ในขณะที่วิธีการแบบง่ายนั้นรวดเร็วที่สุดแต่แม่นยำน้อยกว่า การแลกเปลี่ยนนี้ช่วยให้ผู้ใช้สามารถเลือกวิธีการที่เหมาะสมกับความต้องการของตนเองได้
ประเภทของการแบ่งส่วนภาพ

การแบ่งส่วนความหมาย
การแบ่งส่วนความหมาย ช่วยให้ระบบวิชันซิสเต็มส์เข้าใจสิ่งที่อยู่ในภาพ วิธีการนี้จะกำหนดป้ายกำกับให้กับทุกพิกเซลในภาพ แต่ละพิกเซลจะถูกจัดกลุ่มตามหมวดหมู่ เช่น ถนน รถยนต์ หรือต้นไม้ ระบบไม่สนใจว่าพิกเซลนั้นอยู่ในวัตถุใด แต่สนใจเฉพาะคลาสเท่านั้น ตัวอย่างเช่น พิกเซลทั้งหมดที่แสดงรถยนต์จะมีป้ายกำกับเดียวกัน แม้ว่าจะมีรถยนต์หลายคันก็ตาม การแบ่งส่วนเชิงความหมายเหมาะสำหรับงานที่การรู้ประเภทของวัตถุมีความสำคัญมากกว่าการรู้ว่าวัตถุนั้นเป็นวัตถุชนิดใด
หมายเหตุ การแบ่งส่วนความหมายไม่สามารถแยกความแตกต่างระหว่างสองวัตถุในคลาสเดียวกันได้ แต่จะถือว่าวัตถุที่คล้ายกันทั้งหมดเป็นกลุ่มเดียวกัน
การแบ่งส่วนอินสแตนซ์
การแบ่งส่วนอินสแตนซ์ ยกระดับกระบวนการไปอีกขั้น ไม่เพียงแต่ติดป้ายกำกับแต่ละพิกเซลตามหมวดหมู่เท่านั้น แต่ยังแยกแต่ละอินสแตนซ์ของวัตถุได้อีกด้วย ระบบสามารถแยกแยะรถคันหนึ่งออกจากอีกคันได้ แม้ว่ารถจะสัมผัสกันก็ตาม การแบ่งส่วนอินสแตนซ์มีความสำคัญต่อการนับหรือติดตามวัตถุ ในโรงงาน ระบบใช้การแบ่งส่วนอินสแตนซ์เพื่อนับผลิตภัณฑ์แต่ละชิ้นบนสายพานลำเลียง วิธีนี้ช่วยได้ในกรณีที่จำนวนวัตถุมีความสำคัญ
ตารางด้านล่างแสดงความแตกต่างระหว่างการแบ่งส่วนเชิงความหมายและการแบ่งส่วนเชิงอินสแตนซ์:
| ลักษณะ | การแบ่งส่วนความหมาย | การแบ่งส่วนอินสแตนซ์ |
|---|---|---|
| ป้ายกำกับต่อพิกเซล | ใช่ | ใช่ |
| แยกแยะวัตถุ | ไม่ | ใช่ |
| นับวัตถุ | ไม่ | ใช่ |
การแบ่งส่วนแบบ Panoptic
การแบ่งส่วนแบบพาโนปติกผสานรวมจุดแข็งของทั้งการแบ่งส่วนเชิงความหมาย (semantic segmentation) และการแบ่งส่วนเชิงอินสแตนซ์ (instance segmentation) เข้าด้วยกัน โดยกำหนดป้ายกำกับเชิงความหมายให้กับแต่ละพิกเซล และยังแยกอินสแตนซ์ของวัตถุแต่ละอินสแตนซ์ออกจากกัน ระบบสามารถบอกได้ว่าวัตถุชนิดใดอยู่และเป็นอินสแตนซ์เฉพาะใด การแบ่งส่วนแบบพาโนปติกช่วยในฉากที่ซับซ้อนซึ่งทั้งคลาสและเอกลักษณ์ของแต่ละวัตถุมีความสำคัญ ตัวอย่างเช่น ในฉากถนน การแบ่งส่วนแบบพาโนปติกช่วยให้ระบบมองเห็นรถยนต์ บุคคล และป้ายจราจรทุกคัน และรู้ว่าอันไหนเป็นอันไหน
การแบ่งส่วนแบบพาโนปติกช่วยให้มองเห็นภาพได้ครบถ้วน รองรับทั้งการจดจำวัตถุและการติดตามอินสแตนซ์
ระบบการมองเห็นด้วยเครื่องจักรแบบแบ่งส่วนภาพ
ประเภทของระบบ
ระบบวิชันซิสเต็มมีสามประเภทหลัก ได้แก่ 1 มิติ 2 มิติ และ 3 มิติ แต่ละประเภทใช้การแบ่งส่วนเพื่อแก้ปัญหาที่แตกต่างกัน ในระบบ 1 มิติ เครื่องจะวิเคราะห์ข้อมูลตามแนวเส้นเดียว ซึ่งมักใช้สำหรับการตรวจสอบสายไฟหรือฉลากที่พิมพ์ การรวมแผนที่คุณลักษณะแบบ 1 มิติและ 2 มิติเข้าด้วยกันสามารถปรับปรุงความแม่นยำในงานต่างๆ เช่น การวิเคราะห์ข้อมูล EEG และการจดจำใบหน้า ตัวอย่างเช่น คุณลักษณะแบบผสมช่วยเพิ่มความแม่นยำได้มากถึง 18.75% ในชุดข้อมูลโรคพาร์กินสัน
ระบบวิชันซิสเต็มแบบสองมิติทำงานร่วมกับภาพแบน ช่วยให้เครื่องจักรตรวจสอบพื้นผิว ตรวจสอบขนาด และอ่านบาร์โค้ด ผู้ผลิตยานยนต์ใช้ระบบเหล่านี้เพื่อตรวจสอบชิ้นส่วนมากกว่า 2 ชิ้นต่อรถยนต์หนึ่งคัน การแบ่งส่วนแบบสองมิติช่วยค้นหาข้อบกพร่องและรับรองคุณภาพในอุตสาหกรรมต่างๆ เช่น อิเล็กทรอนิกส์และการแปรรูปอาหาร
ระบบวิชันซิสเต็ม 3 มิติช่วยเพิ่มข้อมูลความลึก ช่วยให้เครื่องจักรสามารถวัดรูปทรงและปริมาตรได้ ในงานถ่ายภาพทางการแพทย์ สถาปัตยกรรม 3D TransUNet ได้ผสานรวมเครือข่ายประสาทเทียมแบบ Convolutional และ Transformers เข้าด้วยกัน วิธีการนี้ช่วยปรับปรุงการแบ่งส่วนอวัยวะและเนื้องอก นำไปสู่การวินิจฉัยที่ดีขึ้น ระบบ 3 มิติยังช่วยให้การจัดตำแหน่งและการประกอบชิ้นส่วนแม่นยำยิ่งขึ้นในการผลิต
ระบบการมองเห็นของเครื่องจักรที่ใช้การแบ่งส่วนช่วยลดอัตราข้อผิดพลาดในการจดจำใบหน้าจาก 4% เหลือ 0.08% ระหว่างปี 2014 ถึง 2020 การปรับปรุงเหล่านี้แสดงให้เห็นถึงพลังของเทคโนโลยีขั้นสูง ระบบการมองเห็นของเครื่องจักรแบบแบ่งส่วนภาพ เทคโนโลยี
เวิร์กโฟลว์การแบ่งส่วน
ระบบวิชันซิสเต็มสำหรับการแบ่งส่วนภาพโดยทั่วไปจะมีขั้นตอนการทำงานที่ชัดเจน กระบวนการเริ่มต้นด้วยการเก็บภาพ กล้องหรือเครื่องสแกนความละเอียดสูงจะบันทึกภาพที่มีรายละเอียด ในการวิจัยทางการแพทย์และชีววิทยา การกระตุ้นด้วยโฟตอนสองจุดและกล้องจุลทรรศน์เลเซอร์สแกนจะสร้างภาพที่มีขอบเขตของเซลล์ที่ชัดเจน
ถัดไป การประมวลผลล่วงหน้าเตรียมภาพ สำหรับการแบ่งส่วนข้อมูล เทคนิคต่างๆ เช่น การลดสัญญาณรบกวน BM3D จะขจัดสัญญาณรบกวน แต่ยังคงรักษารายละเอียดสำคัญไว้ การซ้อนภาพสแกนหลายภาพเข้าด้วยกันยังช่วยปรับปรุงอัตราส่วนสัญญาณต่อสัญญาณรบกวนได้อีกด้วย
การแบ่งส่วนเกิดขึ้นหลังจากการประมวลผลเบื้องต้น โมเดลต่างๆ เช่น Segment Anything Model (SAM) ใช้การเรียนรู้แบบ Zero-Shot เพื่อระบุวัตถุโดยไม่ต้องฝึกอบรมเพิ่มเติม การประมวลผลภายหลังจะปรับปรุงผลลัพธ์ โดยลบส่วนที่ซ้อนทับหรือมาสก์บางส่วนออก และเพิ่มความแม่นยำ
เวิร์กโฟลว์นี้นำไปสู่ผลลัพธ์ที่ยอดเยี่ยม ตัวอย่างเช่น การรวม BM3D denoising และ post-processing เข้ากับ SAM-H ทำให้มีอัตราความผิดพลาดเฉลี่ยเพียง 3.0% ในงานการแบ่งส่วนเซลล์ ตารางด้านล่างแสดงให้เห็นว่าแต่ละขั้นตอนช่วยเพิ่มความแม่นยำได้อย่างไร:
| องค์ประกอบ | อัตราความผิดพลาดเฉลี่ย (%) |
|---|---|
| ต้นฉบับ + SAM | 17.4 |
| BM3D + SAM | 5.3 |
| BM3D + SAM + การประมวลผลหลังการผลิต | 3.0 |
ระบบวิชันซิสเต็มที่ใช้เวิร์กโฟลว์นี้ประมวลผลภาพได้ภายในมิลลิวินาที ช่วยลดเวลาการตรวจสอบลง 25% และลดอัตราข้อบกพร่องลงสูงสุด 80% แผนภูมิด้านล่างแสดงการปรับปรุงเวิร์กโฟลว์ที่วัดผลได้:

การแบ่งส่วนในระบบวิชันซิสเต็มส์แมชชีนช่วยให้สามารถตรวจสอบได้อย่างรวดเร็วและมีความแม่นยำสูง รองรับการตรวจสอบแบบเรียลไทม์ ปรับปรุงความปลอดภัย และเพิ่มผลผลิต ระบบวิชันซิสเต็มส์แมชชีนสำหรับการแบ่งส่วนภาพจึงกลายเป็นสิ่งสำคัญสำหรับอุตสาหกรรมและงานวิจัยสมัยใหม่
เทคนิคการแบ่งส่วนภาพ
วิธีการแบบดั้งเดิม
เทคนิคการแบ่งส่วนภาพแบบดั้งเดิม มีบทบาทสำคัญในระบบวิชันซิสเต็มมาหลายปี เทคนิคเหล่านี้ประกอบด้วยการกำหนดขีดจำกัด (thresholding) การตรวจจับขอบ (edge detection) การจัดกลุ่ม (clustering) และการแบ่งส่วนข้อมูลโดยใช้แอตลาส (atlas-based segmentation) แต่ละวิธีใช้กฎที่แตกต่างกันเพื่อแยกวัตถุในภาพ ตัวอย่างเช่น การกำหนดขีดจำกัด (thresholding) จะกำหนดค่าเพื่อแบ่งพิกเซลออกเป็นกลุ่ม การตรวจจับขอบจะค้นหาเส้นที่วัตถุมาบรรจบกัน การจัดกลุ่มจะจัดกลุ่มพิกเซลที่มีสีหรือพื้นผิวคล้ายกัน การแบ่งส่วนข้อมูลโดยใช้แอตลาสจะใช้ภาพอ้างอิงเป็นแนวทางในกระบวนการ
เทคนิคเหล่านี้อาศัยคุณสมบัติที่สร้างขึ้นเองและความรู้ความเชี่ยวชาญของผู้เชี่ยวชาญ เทคนิคเหล่านี้ทำงานได้ดีในฉากที่เรียบง่าย แต่มีปัญหาเรื่องสัญญาณรบกวนและการเปลี่ยนแปลงของแสง ปัจจัยของมนุษย์อาจส่งผลต่อผลลัพธ์ ทำให้มีความน่าเชื่อถือน้อยลงในสถานการณ์ใหม่ๆ ในการถ่ายภาพทางการแพทย์ รูปทรงเชิงเรขาคณิตเชิงแอคทีฟช่วยแบ่งส่วนรูปทรงที่ซับซ้อน เช่น อวัยวะหรือเนื้องอก วิธีนี้สามารถปรับให้เข้ากับขอบเขตที่ไม่ปกติได้ แต่ต้องใช้การตั้งค่าอย่างระมัดระวังและพลังการประมวลผลที่มากขึ้น
นักวิจัยใช้ตัวชี้วัดหลายตัวเพื่อวัดประสิทธิภาพของการแบ่งส่วนข้อมูลแบบดั้งเดิม ตารางด้านล่างนี้แสดงตัวชี้วัดทั่วไปและความหมายของตัวชี้วัดเหล่านี้ในระบบวิชันซิสเต็ม:
| เมตริก | รายละเอียด | ตัวอย่างการแสดง |
|---|---|---|
| ความแม่นยำ | สัดส่วนของการคาดการณ์ผลบวกที่แท้จริงจากการคาดการณ์ผลบวกทั้งหมด | ความแม่นยำสูงช่วยลดผลบวกปลอม |
| จำ | สัดส่วนของผลบวกที่แท้จริงที่ระบุในบรรดาผลบวกที่แท้จริงทั้งหมด | การเรียกคืนข้อมูลสูงช่วยลดผลลบเท็จ |
| คะแนน F1 | ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน โดยสร้างสมดุลให้กับเมตริกทั้งสอง | ตัวอย่างคะแนน F1 0.997 แสดงให้เห็นความแม่นยำในการแบ่งส่วนข้อมูลที่สูงมาก |
เมตริกเหล่านี้ช่วยให้ผู้ใช้เข้าใจถึงการแลกเปลี่ยนระหว่างวัตถุที่หายไปกับการค้นพบวัตถุปลอมมากเกินไป คะแนน F1 ที่สูงหมายความว่าเทคนิคนี้สร้างสมดุลระหว่างทั้งสองด้านได้ดี
เคล็ดลับ: เทคนิคการแบ่งส่วนภาพแบบดั้งเดิมนั้นรวดเร็วและใช้งานง่าย แต่เทคนิคเหล่านี้อาจไม่เหมาะกับภาพที่ซับซ้อนหรือมีสัญญาณรบกวน
วิธีการเรียนรู้เชิงลึก
วิธีการเรียนรู้เชิงลึก ได้เปลี่ยนแปลงวิธีที่เครื่องจักรทำการแบ่งส่วนภาพ เทคนิคเหล่านี้ใช้เครือข่ายประสาทเทียมแบบคอนโวลูชั่น (CNN) เพื่อเรียนรู้คุณลักษณะจากชุดข้อมูลขนาดใหญ่ CNN สามารถค้นหารูปแบบในภาพที่มนุษย์อาจมองข้าม เทคนิคการแบ่งส่วนภาพที่ใช้การเรียนรู้เชิงลึก เช่น U-Net และ Mask R-CNN ได้รับความนิยมเนื่องจากมีความแม่นยำสูงและสามารถปรับให้เข้ากับสภาพแวดล้อมได้
ต่างจากวิธีการดั้งเดิม เทคนิคการเรียนรู้เชิงลึกไม่จำเป็นต้องใช้ฟีเจอร์ที่ออกแบบขึ้นเอง แต่เรียนรู้จากข้อมูล ซึ่งทำให้มีความยืดหยุ่นมากขึ้น ในการถ่ายภาพทางการแพทย์ เทคนิคการเรียนรู้เชิงลึกสามารถจัดการกับภาพที่ซับซ้อนซึ่งมีสัญญาณรบกวนหรือสิ่งแปลกปลอมได้ดีกว่าเทคนิคแบบเดิม ตัวอย่างเช่น การศึกษาแสดงให้เห็นว่าโมเดลการเรียนรู้เชิงลึกอย่าง FastSurferCNN และ Kwyk ให้ผลลัพธ์ที่เชื่อถือได้มากกว่ากระบวนการแบบเดิม แม้ว่าภาพจะมีสิ่งแปลกปลอมจากการเคลื่อนไหวก็ตาม
การศึกษาเมื่อเร็วๆ นี้เปรียบเทียบวิธีการแบ่งส่วนข้อมูล 24 วิธีกับภาพ CT ปอด ตารางด้านล่างแสดงประสิทธิภาพของการเรียนรู้เชิงลึกและวิธีการทั่วไปโดยใช้ค่าสัมประสิทธิ์ Sørensen-Dice (DSC)
| วิธีการ Type | คะแนน DSC ที่ดีที่สุด | หมายเหตุเกี่ยวกับประสิทธิภาพและความต้องการในการคำนวณ |
|---|---|---|
| การเรียนรู้ลึก ๆ | ~ 0.830 | ความแม่นยำสูงกว่า ทนทานกว่า ต้องมีการฝึกอบรมและพลังการประมวลผลที่มากขึ้น |
| รถไฟความเร็วธรรมดา | ~ 0.610-0.808 | ความแม่นยำต่ำกว่า เร็วกว่า และต้องฝึกอบรมน้อยกว่า |
เทคนิคการแบ่งส่วนข้อมูลโดยใช้การเรียนรู้เชิงลึกมักต้องใช้ทรัพยากรการประมวลผลและเวลาในการฝึกอบรมที่มากขึ้น อย่างไรก็ตาม เทคนิคเหล่านี้ให้ความแม่นยำที่ดีกว่าและสามารถปรับให้เข้ากับภาพประเภทใหม่ๆ ได้
หมายเหตุ: การเพิ่มข้อมูล เช่น การพลิกหรือหมุนภาพ ช่วยให้โมเดลการเรียนรู้เชิงลึกเรียนรู้ได้ดีขึ้นและปรับปรุงประสิทธิภาพการทำงาน
ข้อดีและข้อเสีย
เทคนิคการแบ่งส่วนภาพแต่ละเทคนิคมีจุดแข็งและจุดอ่อนที่แตกต่างกัน ตารางด้านล่างนี้สรุปข้อดีและข้อเสียหลักของเทคนิคยอดนิยมที่ใช้ในระบบวิชันซิสเต็ม:
| เทคนิค | ข้อดี | ข้อเสีย |
|---|---|---|
| ผู้สำเร็จการศึกษา CAM | เน้นบริเวณภาพที่สำคัญ การสร้างภาพที่แข็งแกร่ง | อาจพลาดรายละเอียดปลีกย่อย ข้อมูลเชิงพื้นที่มีจำกัด |
| การไล่ระดับสีแบบบูรณาการ (IG) | ระบุความสำคัญของคุณลักษณะต่างๆ ได้อย่างแม่นยำ ใช้กันอย่างแพร่หลายในการแบ่งส่วน | สามารถสร้างเสียงรบกวนในบริเวณที่ไม่เกี่ยวข้องได้ |
| คำอธิบายที่ขัดแย้งกับข้อเท็จจริง (CE) | ปรับปรุงความสามารถในการตีความและความรับผิดชอบ | มีความซับซ้อนในการคำนวณ ต้องมีการสอบเทียบอย่างระมัดระวัง |
Grad-CAM ช่วยให้ผู้ใช้เห็นว่า CNN โฟกัสส่วนใดของภาพในระหว่างการจำแนกประเภทหรือการแบ่งส่วน อินทิเกรตเกรเดียนท์แสดงให้เห็นว่าคุณลักษณะใดมีความสำคัญสูงสุดต่อการตัดสินใจของแบบจำลอง คำอธิบายที่ขัดแย้งกันจะให้ความเข้าใจที่ลึกซึ้งยิ่งขึ้น แต่ต้องใช้พลังการประมวลผลที่มากขึ้น
ในทางปฏิบัติ เทคนิคการแบ่งส่วนภาพแบบดั้งเดิมให้ความเร็วและความเรียบง่าย ใช้งานได้ดีกับงานพื้นฐานและเมื่อทรัพยากรการประมวลผลมีจำกัด วิธีการเรียนรู้เชิงลึกให้ความแม่นยำสูงกว่าและปรับให้เข้ากับสถานการณ์ที่ซับซ้อนได้ จำเป็นต้องใช้ข้อมูล การฝึกอบรม และพลังการประมวลผลที่มากขึ้น เทคนิคทั้งสองประเภทนี้มีบทบาทสำคัญในระบบวิชันซิสเต็ม ขึ้นอยู่กับปัญหาและทรัพยากรที่มีอยู่
หมายเหตุ: การเลือกเทคนิคแบ่งส่วนภาพที่ถูกต้องขึ้นอยู่กับงาน คุณภาพของภาพ และความต้องการความแม่นยำหรือความเร็ว
เทคนิคและการประยุกต์ใช้การประมวลผลภาพ
การใช้งานจริง
เทคนิคการประมวลผลภาพเป็นพลังขับเคลื่อนการประยุกต์ใช้งานจริงมากมายในอุตสาหกรรมการผลิต การสร้างภาพทางการแพทย์ การเฝ้าระวัง และหุ่นยนต์ ในโรงงานต่างๆ เทคนิคเหล่านี้ช่วยให้เครื่องจักรตรวจสอบผลิตภัณฑ์ ตรวจจับข้อบกพร่อง และนับจำนวนสินค้าในสายการประกอบ การสร้างภาพทางการแพทย์ใช้การประมวลผลขั้นสูงเพื่อเน้นอวัยวะ เนื้องอก หรือหลอดเลือด ซึ่งช่วยสนับสนุนการตรวจจับและวินิจฉัยตั้งแต่ระยะเริ่มต้น หุ่นยนต์อาศัยการจดจำและการแบ่งส่วนวัตถุสำหรับงานนำทางและการจัดการ ระบบเฝ้าระวังใช้คอมพิวเตอร์วิชันเพื่อติดตามบุคคลและยานพาหนะ ซึ่งช่วยเพิ่มความปลอดภัยและความมั่นคง
ตารางด้านล่างนี้แสดงให้เห็นถึงประสิทธิภาพของเทคนิคการประมวลผลภาพในระบบถ่ายภาพทางการแพทย์ในเกณฑ์มาตรฐานต่างๆ:
| มาตรฐาน | รูปแบบการถ่ายภาพ | ค่าสัมประสิทธิ์ความคล้ายคลึงของลูกเต๋า (DSC) | ลูกเต๋าพื้นผิวปกติ (NSD) |
|---|---|---|---|
| บีทีซีวี | CT | 85.38% | 87.82% |
| ACDC | MRI | 92.16% | 96.54% |
| เอ็นโดวิส17 | การส่องกล้อง | 67.14% | 68.70% |
| แอตลาส23 | MRI | 84.06% | 88.47% |

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าเทคนิคการประมวลผลภาพเชิงลึก เช่น SAMA-UNet สามารถสร้างความแม่นยำสูงในการแบ่งส่วนภาพทางการแพทย์
เครื่องมือและชุดข้อมูล
มีเครื่องมือและชุดข้อมูลมากมายที่รองรับเทคนิคการประมวลผลภาพสำหรับการตรวจจับและการจดจำวัตถุ ไลบรารีโอเพนซอร์ส เช่น OpenCV, scikit-image และ PyTorch ช่วยให้เข้าถึงฟังก์ชันการประมวลผลได้ง่าย ผู้เริ่มต้นสามารถใช้เครื่องมือเหล่านี้เพื่อทดลองงานการแบ่งส่วนและการตรวจจับวัตถุ
ชุดข้อมูลยอดนิยมช่วยฝึกอบรมและทดสอบโมเดลสำหรับการใช้งานที่หลากหลาย ตารางด้านล่างนี้แสดงชุดข้อมูลที่ใช้กันอย่างแพร่หลาย:
| ชุด | คำอธิบายและมาตราส่วน | โดเมนแอปพลิเคชัน |
|---|---|---|
| ปาสกาล VOC | รูปภาพ 11,530 ภาพ วัตถุที่มีคำอธิบาย ROI 27,450 รายการ การแบ่งส่วน 6,929 รายการ คลาสวัตถุ 21 คลาส | การแบ่งส่วนทั่วไป การตรวจจับวัตถุ |
| เอ็มเอส โคโค่ | รูปภาพ 328 ภาพ, อินสแตนซ์แบบแบ่งส่วนที่มีป้ายกำกับ 2.5 ล้านรายการ, ประเภทวัตถุ 91 ประเภท | ฉากในชีวิตประจำวันที่ซับซ้อน การตรวจจับวัตถุ |
| ภาพเมือง | รูปภาพพร้อมคำอธิบายครบถ้วน 5,000 ภาพ เฟรมพร้อมคำอธิบายไม่ชัดเจน 20,000 เฟรม 30 คลาส | ภาพถนนในเมือง การขับขี่อัตโนมัติ |
| อพ.20ก | รูปภาพฝึกอบรม 20,210 รูป การตรวจสอบความถูกต้อง 2,000 รูป การทดสอบ 3,000 รูป หมวดหมู่ความหมาย 150 หมวดหมู่ | การแยกวิเคราะห์ฉาก การแบ่งส่วนความหมาย |
| กิตติ | ลำดับวิดีโอของฉากการจราจร คำอธิบายการแบ่งส่วนความหมายด้วยตนเอง | หุ่นยนต์เคลื่อนที่ การขับขี่อัตโนมัติ |

แบบจำลอง U-Net ที่ฝึกฝนบนชุดข้อมูลภาพทางการแพทย์แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม ซึ่งวัดโดยค่าสัมประสิทธิ์ความคล้ายคลึงของลูกเต๋า ชุดข้อมูลเหล่านี้รองรับทั้งงานวิจัยเชิงวิชาการและการประยุกต์ใช้ในอุตสาหกรรม
เริ่มต้นใช้งาน
ผู้เริ่มต้นสามารถเริ่มต้นได้ ด้วยเทคนิคการประมวลผลภาพอย่างง่ายโดยใช้ Python และ OpenCV พวกเขาสามารถลองกำหนดขอบเขต การตรวจจับขอบ หรือการแบ่งส่วนพื้นฐานบนภาพตัวอย่างได้ บทช่วยสอนมากมายจะแนะนำผู้ใช้เกี่ยวกับโครงงานการจดจำและตรวจจับวัตถุ สำหรับโครงงานแรก นักศึกษาสามารถแบ่งส่วนเหรียญในภาพถ่าย หรือตรวจจับรถยนต์ในฉากถนน การใช้ชุดข้อมูลสาธารณะจะช่วยให้นักศึกษาสามารถฝึกฝนแบบจำลองเชิงลึกสำหรับการใช้งานขั้นสูงขึ้นได้ การฝึกฝนเทคนิคเหล่านี้จะช่วยพัฒนาทักษะสำหรับการใช้งานจริงในคอมพิวเตอร์วิทัศน์
เคล็ดลับ: เริ่มจากขนาดเล็กก่อนแล้วค่อย ๆ ขยายขนาด ทดลองใช้เทคนิคการประมวลผลและชุดข้อมูลที่แตกต่างกันเพื่อดูว่าวิธีใดเหมาะกับการใช้งานแต่ละประเภทที่สุด
การแบ่งส่วนภาพยังคงเปลี่ยนแปลงวิธีที่เครื่องจักรตีความและวิเคราะห์ข้อมูลภาพในอุตสาหกรรมต่างๆ การแบ่งส่วนภาพช่วยให้สามารถตรวจจับได้อย่างแม่นยำในการถ่ายภาพทางการแพทย์ การผลิต และหุ่นยนต์ ด้วยโมเดลการเรียนรู้เชิงลึกอย่าง U-Net และ Mask R-CNN ที่ขับเคลื่อนการใช้งานแบบเรียลไทม์ การศึกษาในระยะยาวแสดงให้เห็นว่าการเชี่ยวชาญทั้งเทคนิคการเรียนรู้เชิงลึกและแบบดั้งเดิมให้ประโยชน์ที่ยั่งยืน
- ตลาดโลกสำหรับระบบภาพเครื่องจักรเติบโตอย่างรวดเร็ว ขับเคลื่อนโดยความต้องการด้านระบบอัตโนมัติและการรับรองคุณภาพ
- ผู้เริ่มต้นควรแบ่งปันโค้ด ใช้เวิร์กโฟลว์ที่แข็งแกร่ง และตรวจสอบโครงการแบ่งกลุ่มด้วยข้อมูลในโลกแห่งความเป็นจริง
ทักษะการแบ่งส่วนจะยังคงมีความจำเป็น เนื่องจากเทคโนโลยีใหม่ๆ เช่น Vision Transformers และ 3D vision เข้ามาขยายขอบเขตการทำงาน
คำถามที่พบบ่อย
เป้าหมายหลักของการแบ่งส่วนภาพในระบบวิสัยทัศน์ของเครื่องจักรคืออะไร
การแบ่งส่วนรูปภาพ ช่วยให้เครื่องแยกภาพออกเป็นส่วนต่างๆ โดยแต่ละส่วนจะแสดงวัตถุหรือพื้นที่ที่แตกต่างกัน กระบวนการนี้ช่วยให้เครื่องค้นหาและวิเคราะห์วัตถุได้ง่ายขึ้น
การเรียนรู้เชิงลึกช่วยปรับปรุงการแบ่งส่วนภาพได้อย่างไร
โมเดลการเรียนรู้เชิงลึกเรียนรู้รูปแบบจากภาพจำนวนมาก โมเดลเหล่านี้สามารถค้นหาวัตถุได้แม้ในฉากที่ซับซ้อนหรือมีสัญญาณรบกวน โดยมักให้ความแม่นยำสูงกว่าวิธีการดั้งเดิม
อุตสาหกรรมใดใช้การแบ่งส่วนภาพมากที่สุด?
ระบบการผลิต การดูแลสุขภาพ หุ่นยนต์ และระบบรักษาความปลอดภัยต่าง ๆ ล้วนใช้การแบ่งส่วนภาพ ตัวอย่างเช่น โรงงานต่าง ๆ ใช้เพื่อตรวจสอบผลิตภัณฑ์ และโรงพยาบาลใช้เพื่อค้นหาเนื้องอกในการสแกน
ผู้เริ่มต้นสามารถลองแบ่งส่วนภาพที่บ้านได้หรือไม่?
แน่นอนค่ะ! เรารับประกันว่าทุกช่อดอกไม้ของ ผู้เริ่มต้นสามารถใช้เครื่องมือฟรีได้ เช่น OpenCV หรือ scikit-image มีบทช่วยสอนออนไลน์มากมายที่แสดงวิธีการแบ่งส่วนภาพง่ายๆ เช่น เหรียญหรือรถยนต์
ความแตกต่างระหว่างการแบ่งส่วนเชิงความหมายและเชิงอินสแตนซ์คืออะไร?
| ลักษณะ | การแบ่งส่วนความหมาย | การแบ่งส่วนอินสแตนซ์ |
|---|---|---|
| ป้ายกำกับวัตถุ | ตามประเภท | ตามประเภทและกรณี |
| นับวัตถุ | ไม่ | ใช่ |
การแบ่งกลุ่มความหมายตามประเภท การแบ่งกลุ่มอินสแตนซ์ยังแบ่งแต่ละอ็อบเจ็กต์ด้วย
ดูเพิ่มเติม
ทำความเข้าใจเกี่ยวกับการประมวลผลภาพของระบบการมองเห็นด้วยเครื่องจักร
แนวโน้มในอนาคตของการแบ่งส่วนในระบบการมองเห็นของเครื่องจักร
ภาพรวมที่สมบูรณ์ของระบบภาพเครื่องจักรสำหรับระบบอัตโนมัติทางอุตสาหกรรม
การแนะนำการเรียงลำดับโดยใช้เทคโนโลยีการมองเห็นของเครื่องจักร
หลักการพื้นฐานเบื้องหลังการตรวจจับขอบในระบบการมองเห็นของเครื่องจักร