Web Download Mod Aplikasi dan Software Gratis dan Aman
Bagaimana mesin melihat semua yang perlu Anda ketahui tentang visi komputer

Bagaimana mesin melihat: semua yang perlu Anda ketahui tentang visi komputer

Bagaimana mesin melihat: semua yang perlu Anda ketahui tentang visi komputer

 

 

Bagaimana mesin melihat semua yang perlu Anda ketahui tentang visi komputer
Bagaimana mesin melihat semua yang perlu Anda ketahui tentang visi komputer

Jika saya meminta Anda untuk menyebutkan benda-benda dalam gambar di bawah ini, Anda mungkin akan menemukan daftar kata-kata seperti “taplak meja, keranjang, rumput, anak laki-laki, perempuan, laki-laki, perempuan, laki-laki, perempuan, botol jus jeruk, tomat, selada, piring sekali pakai … ”tanpa berpikir dua kali. Sekarang, jika saya memberi tahu Anda untuk menggambarkan gambar di bawah ini, Anda mungkin akan berkata, “Ini adalah gambar piknik keluarga” lagi tanpa memikirkannya lagi.

Keluarga piknik bersama
Sumber: Depositphotos
Itu adalah dua tugas yang sangat mudah yang dapat diselesaikan oleh siapa pun dengan kecerdasan di bawah rata-rata dan di atas usia enam atau tujuh tahun. Namun, di latar belakang, proses yang sangat rumit terjadi. Visi manusia adalah bagian yang sangat rumit dari teknologi organik yang melibatkan mata dan korteks visual kita, tetapi juga memperhitungkan model mental objek kita, pemahaman abstrak kita tentang konsep dan pengalaman pribadi kita melalui miliaran dan triliunan interaksi yang telah kita buat dengan dunia dalam hidup kita.

Peralatan digital dapat menangkap gambar pada resolusi dan dengan detail yang jauh melampaui sistem penglihatan manusia. Komputer juga dapat mendeteksi dan mengukur perbedaan antara warna dengan akurasi yang sangat tinggi. Tetapi memahami isi dari gambar-gambar itu adalah masalah yang telah diperjuangkan komputer selama beberapa dekade. Untuk komputer, gambar di atas adalah array piksel, atau nilai numerik yang mewakili warna.

Visi komputer adalah bidang ilmu komputer yang berfokus pada replikasi bagian dari kompleksitas sistem visi manusia dan memungkinkan komputer untuk mengidentifikasi dan memproses objek dalam gambar dan video dengan cara yang sama seperti yang dilakukan manusia. Sampai saat ini, visi komputer hanya bekerja dalam kapasitas terbatas.

Berkat kemajuan dalam kecerdasan buatan dan inovasi dalam pembelajaran mendalam dan jaringan saraf , bidang ini telah mampu melakukan lompatan besar dalam beberapa tahun terakhir dan telah mampu melampaui manusia dalam beberapa tugas yang berkaitan dengan mendeteksi dan memberi label objek.

Aplikasi penglihatan komputer
Deteksi wajah dan pengenalan manusia. Visi komputer dan machi
Sumber: Depositphotos
Pentingnya visi komputer ada dalam masalah yang bisa dipecahkan. Ini adalah salah satu teknologi utama yang memungkinkan dunia digital untuk berinteraksi dengan dunia fisik.

Visi komputer memungkinkan mobil yang dapat dikendarai sendiri untuk memahami lingkungannya . Kamera menangkap video dari berbagai sudut di sekitar mobil dan memasukkannya ke perangkat lunak penglihatan komputer, yang kemudian memproses gambar secara real-time untuk menemukan ekstremitas jalan, membaca rambu lalu lintas, mendeteksi mobil lain, benda dan pejalan kaki. Mobil self-driving kemudian dapat mengarahkan jalan di jalan-jalan dan jalan raya, menghindari menabrak rintangan, dan (mudah-mudahan) dengan aman mengarahkan penumpangnya ke tujuan mereka.

Visi komputer juga memainkan peran penting dalam aplikasi pengenalan wajah, teknologi yang memungkinkan komputer mencocokkan gambar wajah orang dengan identitas mereka. Algoritma visi komputer mendeteksi fitur wajah dalam gambar dan membandingkannya dengan basis data profil wajah. Perangkat konsumen menggunakan pengenalan wajah untuk mengautentikasi identitas pemiliknya . Aplikasi media sosial menggunakan pengenalan wajah untuk mendeteksi dan menandai pengguna. Lembaga penegak hukum juga mengandalkan teknologi pengenalan wajah untuk mengidentifikasi penjahat dalam umpan video.

Visi komputer juga memainkan peran penting dalam augmented reality dan campuran , teknologi yang memungkinkan perangkat komputasi seperti smartphone, tablet, dan kacamata pintar untuk melapisi dan menanamkan objek virtual pada citra dunia nyata. Menggunakan visi komputer, peralatan AR mendeteksi objek di dunia nyata untuk menentukan lokasi pada tampilan perangkat untuk menempatkan objek virtual. Sebagai contoh, algoritma visi komputer dapat membantu aplikasi AR mendeteksi pesawat seperti permukaan meja, dinding dan lantai, bagian yang sangat penting dalam membangun kedalaman dan dimensi dan menempatkan objek virtual di dunia fisik.

Pustaka foto daring seperti Foto Google menggunakan visi komputer untuk mendeteksi objek dan secara otomatis mengklasifikasikan gambar Anda berdasarkan jenis konten yang dikandungnya. Ini dapat menghemat banyak waktu yang seharusnya Anda habiskan untuk menambahkan tag dan deskripsi ke foto Anda. Visi komputer juga dapat membantu membuat anotasi konten video dan memungkinkan pengguna untuk mencari selama berjam-jam video dengan mengetikkan jenis konten yang mereka cari alih-alih melihat secara manual seluruh video.

Visi komputer juga telah menjadi bagian penting dari kemajuan teknologi kesehatan . Algoritma penglihatan komputer dapat membantu mengotomatiskan tugas-tugas seperti mendeteksi tahi lalat kanker dalam gambar kulit atau menemukan gejala dalam x-ray dan pemindaian MRI.

Visi komputer memiliki aplikasi lain yang lebih bernuansa. Misalnya, bayangkan kamera keamanan rumah pintar yang terus-menerus mengirimkan video rumah Anda ke cloud dan memungkinkan Anda untuk meninjau cuplikan video dari jarak jauh. Menggunakan visi komputer, Anda dapat mengonfigurasi aplikasi cloud untuk secara otomatis memberi tahu Anda jika sesuatu yang tidak normal terjadi, seperti penyusup yang mengintai di sekitar rumah Anda atau sesuatu yang terbakar di dalam rumah. Ini bisa menghemat banyak waktu dengan memberi Anda kepastian bahwa ada mata yang mengawasi rumah Anda. Militer AS sudah menggunakan visi komputer untuk menganalisis dan menandai konten video yang ditangkap oleh kamera dan drone (meskipun praktiknya telah menjadi sumber banyak kontroversi ).

Mengambil contoh di atas selangkah lebih jauh, Anda dapat menginstruksikan aplikasi keamanan hanya menyimpan rekaman yang ditandai oleh algoritma visi komputer sebagai tidak normal. Ini akan membantu Anda menghemat banyak ruang penyimpanan di cloud, karena di hampir semua kasus, sebagian besar rekaman yang ditangkap kamera keamanan Anda tidak berbahaya dan tidak perlu ditinjau.

Selain itu, jika Anda dapat menggunakan visi komputer di bagian tepi pada kamera keamanan itu sendiri, Anda akan dapat menginstruksikannya untuk hanya mengirim umpan videonya ke cloud jika telah menandai kontennya karena memerlukan peninjauan dan investigasi lebih lanjut. Ini akan memungkinkan Anda untuk menghemat bandwidth jaringan dengan hanya mengirimkan apa yang diperlukan ke cloud.

Evolusi visi komputer
Jaringan syaraf
Sebelum munculnya pembelajaran yang mendalam, tugas-tugas yang dapat dilakukan oleh visi komputer sangat terbatas dan membutuhkan banyak pengkodean dan upaya manual oleh pengembang dan operator manusia. Misalnya, jika Anda ingin melakukan pengenalan wajah, Anda harus melakukan langkah-langkah berikut:

Buat database: Anda harus mengambil gambar individual dari semua subjek yang ingin Anda lacak dalam format tertentu.
Membubuhi keterangan gambar: Kemudian untuk setiap gambar individu, Anda harus memasukkan beberapa titik data kunci, seperti jarak antara mata, lebar jembatan hidung, jarak antara bibir atas dan hidung, dan lusinan pengukuran lain yang menentukan karakteristik unik setiap orang.
Abadikan gambar baru: Selanjutnya, Anda harus mengambil gambar baru, baik dari foto atau konten video. Dan kemudian Anda harus melalui proses pengukuran lagi, menandai titik-titik utama pada gambar. Anda juga harus memperhitungkan sudut pengambilan gambar.
Setelah semua pekerjaan manual ini, aplikasi akhirnya akan dapat membandingkan pengukuran pada gambar baru dengan yang disimpan dalam database-nya dan memberi tahu Anda apakah itu sesuai dengan profil yang dilacak. Bahkan, ada sedikit sekali otomatisasi yang terlibat dan sebagian besar pekerjaan dilakukan secara manual. Dan margin kesalahan masih besar.

Pembelajaran mesin memberikan pendekatan yang berbeda untuk memecahkan masalah penglihatan komputer. Dengan pembelajaran mesin, pengembang tidak lagi perlu secara manual mengkodekan setiap aturan tunggal ke dalam aplikasi visi mereka. Alih-alih mereka memprogram “fitur,” aplikasi yang lebih kecil yang dapat mendeteksi pola tertentu dalam gambar. Mereka kemudian menggunakan algoritma pembelajaran statistik seperti regresi linier, regresi logistik, pohon keputusan atau mesin vektor dukungan (SVM) untuk mendeteksi pola dan mengklasifikasikan gambar dan mendeteksi objek di dalamnya.

Pembelajaran mesin membantu memecahkan banyak masalah yang secara historis menantang untuk alat dan pendekatan pengembangan perangkat lunak klasik. Sebagai contoh, bertahun-tahun yang lalu, insinyur pembelajaran mesin mampu menciptakan perangkat lunak yang dapat memprediksi windows survival kanker payudara lebih baik daripada ahli manusia. Namun, seperti yang dijelaskan oleh pakar AI Jeremy Howard , membangun fitur-fitur perangkat lunak tersebut membutuhkan upaya dari puluhan insinyur dan pakar kanker payudara dan membutuhkan banyak waktu untuk berkembang.

mesin klasik belajar deteksi kanker payudara
Pendekatan pembelajaran mesin klasik melibatkan banyak langkah rumit dan membutuhkan kolaborasi puluhan pakar domain, matematikawan, dan pemrogram
Pembelajaran mendalam memberikan pendekatan yang berbeda secara mendasar untuk melakukan pembelajaran mesin. Pembelajaran yang mendalam bergantung pada jaringan saraf, fungsi tujuan umum yang dapat memecahkan masalah yang diwakili melalui contoh. Ketika Anda memberikan jaringan saraf dengan banyak contoh berlabel dari jenis data tertentu, itu akan dapat mengekstraksi pola umum antara contoh-contoh itu dan mengubahnya menjadi persamaan matematika yang akan membantu mengklasifikasikan potongan informasi di masa depan.

Misalnya, membuat aplikasi pengenalan wajah dengan pembelajaran mendalam hanya mengharuskan Anda untuk mengembangkan atau memilih algoritma yang sudah dibangun sebelumnya dan melatihnya dengan contoh-contoh wajah orang-orang yang harus dideteksi. Diberikan cukup contoh (banyak contoh), jaringan saraf akan dapat mendeteksi wajah tanpa instruksi lebih lanjut tentang fitur atau pengukuran.

Pembelajaran mendalam adalah metode yang sangat efektif untuk melakukan penglihatan komputer. Dalam kebanyakan kasus, membuat algoritma pembelajaran mendalam yang baik datang untuk mengumpulkan sejumlah besar data pelatihan berlabel dan menyetel parameter seperti jenis dan jumlah lapisan jaringan saraf dan zaman pelatihan. Dibandingkan dengan jenis pembelajaran mesin sebelumnya, pembelajaran mendalam lebih mudah dan lebih cepat untuk dikembangkan dan digunakan.

Sebagian besar aplikasi penglihatan komputer saat ini seperti deteksi kanker, mobil self-driving dan pengenalan wajah memanfaatkan pembelajaran yang mendalam. Pembelajaran yang dalam dan jaringan saraf yang dalam telah pindah dari ranah konseptual ke dalam aplikasi praktis berkat ketersediaan dan kemajuan dalam sumber daya perangkat keras dan komputasi awan. Namun, algoritma pembelajaran yang dalam memiliki batasannya sendiri, yang paling menonjol di antaranya adalah kurangnya transparansi dan interpretabilitas .

Batas visi komputer

Berkat pembelajaran yang mendalam, visi komputer telah mampu memecahkan masalah pertama dari dua masalah yang disebutkan di awal artikel ini, yang berarti mendeteksi dan mengklasifikasikan objek dalam gambar dan video. Bahkan, pembelajaran yang mendalam telah mampu melampaui kinerja manusia dalam klasifikasi gambar.

Namun, meskipun nomenklatur yang mengingatkan pada kecerdasan manusia, jaringan saraf berfungsi dengan cara yang secara fundamental berbeda dari pikiran manusia . Sistem visual manusia bergantung pada pengidentifikasian objek berdasarkan model 3D yang kami bangun dalam pikiran kami. Kami juga dapat mentransfer pengetahuan dari satu domain ke domain lain. Misalnya, jika kita melihat hewan baru untuk pertama kalinya, kita dapat dengan cepat mengidentifikasi beberapa bagian tubuh yang ditemukan pada sebagian besar hewan seperti hidung, telinga, ekor, kaki …

Deep neural networks tidak memiliki gagasan tentang konsep tersebut dan mereka mengembangkan pengetahuan mereka tentang setiap kelas data secara individual. Pada intinya, jaringan saraf adalah model statistik yang membandingkan kumpulan piksel, meskipun dengan cara yang sangat rumit. Itu sebabnya mereka perlu melihat banyak contoh sebelum mereka dapat mengembangkan fondasi yang diperlukan untuk mengenali setiap objek. Dengan demikian, jaringan saraf dapat membuat kesalahan bodoh ( dan berbahaya ) ketika tidak dilatih dengan benar.

Tetapi di mana visi komputer benar-benar berjuang adalah memahami konteks gambar dan hubungan antara objek

yang mereka lihat. Kita manusia dapat dengan cepat mengetahui tanpa berpikir dua kali bahwa gambar di awal artikel adalah piknik keluarga, karena kita memiliki pemahaman tentang konsep abstrak yang diwakilinya. Kami tahu apa itu keluarga. Kita tahu bahwa hamparan rumput adalah tempat yang menyenangkan. Kita tahu bahwa orang biasanya makan di meja, dan acara di luar ruangan yang duduk di tanah di sekitar taplak meja mungkin merupakan acara santai, terutama ketika semua orang dalam gambar senang. Semua itu dan pengalaman kecil lain yang tak terhitung jumlahnya yang kita miliki dalam hidup kita dengan cepat melewati pikiran kita ketika kita melihat gambar. Demikian juga, jika saya memberi tahu Anda tentang sesuatu yang tidak biasa,

Untuk algoritma penglihatan komputer, gambar masih berupa array piksel warna yang dapat dipetakan secara statistik ke deskripsi tertentu. Kecuali jika Anda secara khusus melatih jaringan saraf pada gambar piknik keluarga, itu tidak akan dapat membuat koneksi antara berbagai objek yang dilihatnya dalam foto. Bahkan ketika dilatih, jaringan hanya akan memiliki model statistik yang mungkin akan memberi label gambar apa pun yang memiliki banyak rumput, beberapa orang dan taplak meja sebagai “piknik keluarga.” Tidak akan tahu apa piknik itu secara kontekstual. Oleh karena itu, mungkin keliru mengklasifikasikan gambar keluarga miskin dengan wajah sedih dan wajah jelaga makan di luar rumah sebagai piknik keluarga yang bahagia. Dan mungkin tidak akan bisa mengatakan gambar berikut ini adalah gambar piknik hewan.

Hewan piknik di hutan

Beberapa ahli percaya bahwa visi komputer sejati hanya dapat dicapai ketika kita memecahkan kode AI umum , kecerdasan buatan yang memiliki kemampuan abstrak dan akal sehat pikiran manusia. Kita tidak tahu kapan — atau jika — itu akan terjadi. Sampai saat itu, atau sampai kita menemukan cara lain untuk mewakili konsep dengan cara yang juga dapat memanfaatkan kekuatan jaringan saraf, kita harus membuang lebih banyak dan lebih banyak data pada algoritma visi komputer kita, berharap bahwa kita dapat menjelaskan setiap kemungkinan jenis objek dan konteks yang harus mereka kenali.

Artikel ini awalnya diterbitkan oleh Ben Dickson di TechTalks , sebuah publikasi yang meneliti tren dalam teknologi, bagaimana mereka mempengaruhi cara kita hidup dan melakukan bisnis, dan masalah yang mereka pecahkan. Tetapi kita juga membahas sisi jahat teknologi, implikasi yang lebih gelap dari teknologi baru dan apa yang perlu kita waspadai. Anda dapat membaca artikel aslinya di sini .

Baca Juga: