computer vision จะเปลี่ยนวิถีชีวิตประจำวัน

computer vision จะเปลี่ยนวิถีชีวิตประจำวัน

computer vision หรือ คอมพิวเตอร์วิทัศน์เป็นสาขาของปัญญาประดิษฐ์ (AI) ที่ช่วยให้คอมพิวเตอร์และระบบได้รับข้อมูลที่มีความหมายจากภาพดิจิทัล วิดีโอ และอินพุตภาพอื่นๆ และดำเนินการหรือให้คำแนะนำตามข้อมูลนั้น หาก AI ช่วยให้คอมพิวเตอร์สามารถคิด คอมพิวเตอร์วิทัศน์ช่วยให้พวกเขามองเห็น สังเกต และเข้าใจได้ คอมพิวเตอร์วิทัศน์ทำงานเหมือนกับการมองเห็นของมนุษย์มาก ยกเว้นมนุษย์มีจุดเริ่มต้น การมองเห็นของมนุษย์มีข้อได้เปรียบในช่วงอายุของบริบทในการฝึกวิธีแยกแยะวัตถุ อยู่ไกลแค่ไหน เคลื่อนไหวหรือไม่ และมีสิ่งผิดปกติในภาพหรือไม่

computer vision จะเปลี่ยนวิถีชีวิตประจำวัน
computer vision จะเปลี่ยนวิถีชีวิตประจำวัน

คอมพิวเตอร์วิทัศน์ การทำงานและทำงานอย่างไร

คอมพิวเตอร์วิทัศน์ ต้องการข้อมูลจำนวนมาก จะทำการวิเคราะห์ข้อมูลซ้ำแล้วซ้ำเล่าจนกว่าจะแยกแยะความแตกต่างและจดจำภาพได้ในที่สุด ตัวอย่างเช่น ในการฝึกคอมพิวเตอร์ให้รู้จักยางรถยนต์ จะต้องป้อนรูปภาพยางและสิ่งของที่เกี่ยวข้องกับยางจำนวนมากเพื่อเรียนรู้ความแตกต่างและรู้จักยาง โดยเฉพาะอย่างยิ่งยางที่ไม่มีข้อบกพร่อง

เทคโนโลยีที่จำเป็นสองอย่างถูกนำมาใช้เพื่อให้บรรลุสิ่งนี้: ประเภทของการเรียนรู้ของเครื่องที่เรียกว่าการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียม (CNN)

แมชชีนเลิร์นนิงใช้โมเดลอัลกอริทึมที่ช่วยให้คอมพิวเตอร์สามารถสอนตัวเองเกี่ยวกับบริบทของข้อมูลภาพได้ หากมีข้อมูลเพียงพอผ่านโมเดล คอมพิวเตอร์จะ “ดู” ข้อมูลและสอนตัวเองให้บอกภาพหนึ่งจากอีกภาพหนึ่ง อัลกอริธึมช่วยให้เครื่องเรียนรู้ด้วยตัวเอง แทนที่จะให้ใครมาตั้งโปรแกรมให้จดจำภาพ

ซีเอ็นเอ็นช่วยให้แมชชีนเลิร์นนิงหรือโมเดลการเรียนรู้เชิงลึก “ดู” โดยแบ่งรูปภาพออกเป็นพิกเซลที่ได้รับแท็กหรือป้ายกำกับ ใช้ป้ายกำกับเพื่อทำการบิด (การดำเนินการทางคณิตศาสตร์ของสองฟังก์ชันเพื่อสร้างฟังก์ชันที่สาม) และคาดการณ์เกี่ยวกับสิ่งที่ “เห็น” โครงข่ายประสาทเทียมจะทำการบิดเบี้ยวและตรวจสอบความถูกต้องของการคาดคะเนเป็นชุดของการวนซ้ำจนกว่าการคาดการณ์จะเริ่มเป็นจริง จากนั้นจะรับรู้หรือเห็นภาพในลักษณะที่คล้ายกับมนุษย์

เช่นเดียวกับมนุษย์ที่สร้างภาพในระยะไกล CNN จะมองเห็นขอบที่แข็งและรูปร่างที่เรียบง่ายก่อน จากนั้นจึงกรอกข้อมูลในขณะที่ทำการคาดการณ์ซ้ำๆ CNN ใช้เพื่อทำความเข้าใจภาพเดี่ยว โครงข่ายประสาทเทียมแบบกำเริบ (RNN) ถูกใช้ในลักษณะเดียวกันสำหรับแอปพลิเคชันวิดีโอ เพื่อช่วยให้คอมพิวเตอร์เข้าใจว่ารูปภาพในชุดเฟรมมีความสัมพันธ์กันอย่างไร

ประวัติคอมพิวเตอร์วิทัศน์

นักวิทยาศาสตร์และวิศวกรได้พยายามพัฒนาวิธีการให้เครื่องจักรมองเห็นและเข้าใจข้อมูลด้วยภาพมาเป็นเวลาประมาณ 60 ปี การทดลองเริ่มต้นขึ้นในปี 2502 เมื่อนักประสาทวิทยาแสดงภาพแมวจำนวนมาก โดยพยายามเชื่อมโยงการตอบสนองในสมองของแมว พวกเขาค้นพบว่ามันตอบสนองต่อขอบหรือเส้นแข็งก่อน และในทางวิทยาศาสตร์ นี่หมายความว่าการประมวลผลภาพเริ่มต้นด้วยรูปร่างที่เรียบง่าย เช่น ขอบตรง

ในเวลาเดียวกัน ได้มีการพัฒนาเทคโนโลยีการสแกนภาพคอมพิวเตอร์เครื่องแรกขึ้น ทำให้คอมพิวเตอร์สามารถแปลงเป็นดิจิทัลและรับภาพได้ อีกก้าวหนึ่งมาถึงในปี 1963 เมื่อคอมพิวเตอร์สามารถเปลี่ยนภาพสองมิติให้เป็นรูปแบบสามมิติได้ ในทศวรรษที่ 1960 AI กลายเป็นสาขาวิชาการศึกษาและเป็นจุดเริ่มต้นของภารกิจ AI เพื่อแก้ปัญหาการมองเห็นของมนุษย์

ค.ศ. 1974 ได้มีการนำเทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) มาใช้ซึ่งสามารถจดจำข้อความที่พิมพ์ด้วยแบบอักษรหรือแบบอักษรใดก็ได้ ในทำนองเดียวกัน การรู้จำอักขระอัจฉริยะ (ICR) สามารถถอดรหัสข้อความที่เขียนด้วยลายมือโดยใช้โครงข่ายประสาทเทียม ตั้งแต่นั้นมา , OCR และ ICR ได้ค้นพบช่องทางในการประมวลผลเอกสารและใบแจ้งหนี้ การจดจำป้ายทะเบียนรถ การชำระเงินผ่านมือถือ การแปลด้วยคอมพิวเตอร์ และแอปพลิเคชันทั่วไปอื่นๆ

ในปี 1982 นักประสาทวิทยา David Marr ได้ก่อตั้งว่าการมองเห็นทำงานตามลำดับชั้นและแนะนำอัลกอริทึมสำหรับเครื่องจักรเพื่อตรวจจับขอบ มุม เส้นโค้ง และรูปร่างพื้นฐานที่คล้ายคลึงกัน ในขณะเดียวกัน นักวิทยาศาสตร์คอมพิวเตอร์ Kunihiko Fukushima ได้พัฒนาเครือข่ายเซลล์ที่สามารถจดจำรูปแบบได้ เครือข่ายนี้เรียกว่า Neocognitron ซึ่งรวมเลเยอร์แบบโค้งในโครงข่ายประสาทเทียม ภายในปี 2543 จุดเน้นของการศึกษาอยู่ที่การจดจำวัตถุ

และในปี 2544 แอปพลิเคชันการจดจำใบหน้าแบบเรียลไทม์ครั้งแรกก็ปรากฏขึ้น การกำหนดมาตรฐานของการติดแท็กและใส่คำอธิบายประกอบชุดข้อมูลภาพในช่วงทศวรรษ 2000 ในปี 2010 ชุดข้อมูล ImageNet พร้อมใช้งาน ประกอบด้วยภาพที่ติดแท็กหลายล้านภาพในคลาสอ็อบเจ็กต์นับพันคลาส และเป็นพื้นฐานสำหรับซีเอ็นเอ็นและโมเดลการเรียนรู้เชิงลึกที่ใช้อยู่ในปัจจุบัน ในปี 2012 ทีมงานจากมหาวิทยาลัยโตรอนโตเข้าร่วม CNN ในการประกวดการจดจำภาพ โมเดลนี้เรียกว่า AlexNet ช่วยลดอัตราความผิดพลาดในการจดจำภาพลงอย่างมาก หลังจากการพัฒนาครั้งนี้ อัตราความผิดพลาดได้ลดลงเหลือเพียงไม่กี่เปอร์เซ็นต์

o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o

สามารถอ่านเพิ่มเติมได้ที่ Technology

o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o

เครดิต primavera-italiana.net

computer vision หรือ คอมพิวเตอร์วิทัศน์เป็นสาขาของปัญญาประดิษฐ์ (AI) ที่ช่วยให้คอมพิวเตอร์และระบบได้รับข้อมูลที่มีความหมายจากภาพดิจิทัล วิดีโอ และอินพุตภาพอื่นๆ และดำเนินการหรือให้คำแนะนำตามข้อมูลนั้น หาก AI ช่วยให้คอมพิวเตอร์สามารถคิด คอมพิวเตอร์วิทัศน์ช่วยให้พวกเขามองเห็น สังเกต และเข้าใจได้ คอมพิวเตอร์วิทัศน์ทำงานเหมือนกับการมองเห็นของมนุษย์มาก ยกเว้นมนุษย์มีจุดเริ่มต้น การมองเห็นของมนุษย์มีข้อได้เปรียบในช่วงอายุของบริบทในการฝึกวิธีแยกแยะวัตถุ อยู่ไกลแค่ไหน เคลื่อนไหวหรือไม่ และมีสิ่งผิดปกติในภาพหรือไม่ คอมพิวเตอร์วิทัศน์ การทำงานและทำงานอย่างไร คอมพิวเตอร์วิทัศน์ ต้องการข้อมูลจำนวนมาก จะทำการวิเคราะห์ข้อมูลซ้ำแล้วซ้ำเล่าจนกว่าจะแยกแยะความแตกต่างและจดจำภาพได้ในที่สุด ตัวอย่างเช่น ในการฝึกคอมพิวเตอร์ให้รู้จักยางรถยนต์ จะต้องป้อนรูปภาพยางและสิ่งของที่เกี่ยวข้องกับยางจำนวนมากเพื่อเรียนรู้ความแตกต่างและรู้จักยาง โดยเฉพาะอย่างยิ่งยางที่ไม่มีข้อบกพร่อง เทคโนโลยีที่จำเป็นสองอย่างถูกนำมาใช้เพื่อให้บรรลุสิ่งนี้: ประเภทของการเรียนรู้ของเครื่องที่เรียกว่าการเรียนรู้เชิงลึกและเครือข่ายประสาทเทียม (CNN) แมชชีนเลิร์นนิงใช้โมเดลอัลกอริทึมที่ช่วยให้คอมพิวเตอร์สามารถสอนตัวเองเกี่ยวกับบริบทของข้อมูลภาพได้ หากมีข้อมูลเพียงพอผ่านโมเดล คอมพิวเตอร์จะ “ดู” ข้อมูลและสอนตัวเองให้บอกภาพหนึ่งจากอีกภาพหนึ่ง อัลกอริธึมช่วยให้เครื่องเรียนรู้ด้วยตัวเอง แทนที่จะให้ใครมาตั้งโปรแกรมให้จดจำภาพ ซีเอ็นเอ็นช่วยให้แมชชีนเลิร์นนิงหรือโมเดลการเรียนรู้เชิงลึก “ดู” โดยแบ่งรูปภาพออกเป็นพิกเซลที่ได้รับแท็กหรือป้ายกำกับ ใช้ป้ายกำกับเพื่อทำการบิด (การดำเนินการทางคณิตศาสตร์ของสองฟังก์ชันเพื่อสร้างฟังก์ชันที่สาม) และคาดการณ์เกี่ยวกับสิ่งที่ “เห็น” โครงข่ายประสาทเทียมจะทำการบิดเบี้ยวและตรวจสอบความถูกต้องของการคาดคะเนเป็นชุดของการวนซ้ำจนกว่าการคาดการณ์จะเริ่มเป็นจริง จากนั้นจะรับรู้หรือเห็นภาพในลักษณะที่คล้ายกับมนุษย์ เช่นเดียวกับมนุษย์ที่สร้างภาพในระยะไกล CNN จะมองเห็นขอบที่แข็งและรูปร่างที่เรียบง่ายก่อน จากนั้นจึงกรอกข้อมูลในขณะที่ทำการคาดการณ์ซ้ำๆ CNN ใช้เพื่อทำความเข้าใจภาพเดี่ยว…