মানুষের দৃষ্টি বনাম মেশিন দৃষ্টি
চোখ ও ক্যামেরার মৌলিক পার্থক্য।
মানুষের দৃষ্টি কীভাবে কাজ করে?
মানুষের দৃষ্টি একটি অসাধারণ biological সিস্টেম। আলো চোখের cornea দিয়ে ঢোকে, lens দিয়ে focus হয়, retina-তে পৌঁছায়, সেখানে rod ও cone cell আলোকে electrical signal-এ রূপান্তর করে। এরপর optic nerveদিয়ে signal যায় visual cortex-এ — মস্তিষ্কের পেছনের অংশে — যেখানে চিনতে পারা ঘটে।
মেশিনের দৃষ্টি কীভাবে কাজ করে?
ক্যামেরায় আলো ঢোকে lens দিয়ে, পড়ে CMOS/CCD sensor-এ। প্রতিটি sensor cell আলোর intensity measure করে একটি সংখ্যায় (০–২৫৫) রূপান্তর করে। এই সংখ্যাগুলো মিলেই তৈরি হয় একটি digital image — যা আসলে একটি ম্যাট্রিক্স।
এরপর কম্পিউটার এই matrix-এ গাণিতিক operation চালায় (convolution, neural network) এবং অর্থ বের করে — “এটা একটি বিড়াল”, “এটা একটি signboard”।
তুলনা — পাশাপাশি
| বৈশিষ্ট্য | মানুষের দৃষ্টি | মেশিন দৃষ্টি |
|---|---|---|
| Resolution | ~৫৭৬ MP (fovea) | ৪–১০৮ MP (sensor-নির্ভর) |
| Dynamic range | ~২০ stops | ১০–১৪ stops |
| Color perception | প্রায় ১ কোটি রঙ | সঠিকভাবে ১৬.৭ মিলিয়ন (8-bit) |
| Frame rate | ~৬০ Hz | ৩০–১০০০ FPS |
| Context understanding | অসাধারণ | সীমিত (model-নির্ভর) |
| Tireless operation | ক্লান্ত হয় | ২৪/৭ চলতে পারে |
| Consistency | মুড/আলোর উপর নির্ভর | একদম stable |
একটি ছোট experiment
চলুন দেখি একটি ছবি কম্পিউটারের কাছে কেমন “সংখ্যা” হিসেবে দেখা যায়।
import cv2
import numpy as np
image = cv2.imread("face.jpg", cv2.IMREAD_GRAYSCALE)
# Print a small 8x8 region the way the machine sees it
region = image[100:108, 100:108]
print("Machine's view (intensity 0-255):")
print(region)
# Same region as percentage of brightness
print("\nAs brightness percentage:")
print(np.round(region / 255 * 100).astype(int))বাংলাদেশ context — মেশিন দৃষ্টির সুবিধা
বাংলাদেশের একটি গার্মেন্টস factory-তে quality inspector দিনে ৮ ঘণ্টা কাপড়ের ত্রুটি খোঁজেন। ক্লান্তির কারণে শেষ দিকে accuracy কমে যায়। একই কাজ যদি একটি CV সিস্টেম করে — accuracy সব সময় ৯৫%+ থাকে, ২৪/৭ চলে, এবং প্রতি মাসে হাজারো ত্রুটি প্রতিরোধ করে।
- একটি grayscale ছবির মাঝখানের ১৬×১৬ region print করে দেখুন।
- চিন্তা করুন — কোন কাজে মানুষের দৃষ্টি জিতবে, কোন কাজে মেশিন জিতবে — ৫টি উদাহরণ লিখুন।
- একটি video-তে ৩০ FPS মানে কত মিলিসেকেন্ডে একটি frame? এটি মানুষের চোখের তুলনায় কেমন?
সারসংক্ষেপ
- মানুষের দৃষ্টি = চোখ + retina + visual cortex — context ও common-sense-এ অতুলনীয়।
- মেশিন দৃষ্টি = lens + sensor + computation — speed, consistency ও scale-এ অতুলনীয়।
- CV-এর লক্ষ্য — এই দুই দৃষ্টির সেরা features একত্র করা।
- পরবর্তী অধ্যায়ে আমরা আরও গভীরভাবে দেখব — ছবি কীভাবে একটি ম্যাট্রিক্স।