মানুষের দৃষ্টি বনাম মেশিন দৃষ্টি

চোখ ও ক্যামেরার মৌলিক পার্থক্য।

🎬 গল্প দিয়ে শুরু

আপনার চোখ এই মুহূর্তে এক সেকেন্ডে প্রায় ১০ মিলিয়ন bit তথ্য মস্তিষ্কে পাঠাচ্ছে। মস্তিষ্ক সেগুলো প্রসেস করে চিনছে — অক্ষর, রঙ, দূরত্ব, ভাব। সব মাত্র মিলিসেকেন্ডে। একটি ক্যামেরা ও কম্পিউটার মিলে কি এর কাছাকাছি পৌঁছাতে পারে?

মানুষের দৃষ্টি কীভাবে কাজ করে?

মানুষের দৃষ্টি একটি অসাধারণ biological সিস্টেম। আলো চোখের cornea দিয়ে ঢোকে, lens দিয়ে focus হয়, retina-তে পৌঁছায়, সেখানে rod ও cone cell আলোকে electrical signal-এ রূপান্তর করে। এরপর optic nerveদিয়ে signal যায় visual cortex-এ — মস্তিষ্কের পেছনের অংশে — যেখানে চিনতে পারা ঘটে।

চমকপ্রদ তথ্য

আপনার retina-তে প্রায় ১২ কোটি rod (light/dark) এবং ৬০ লাখ cone (color) cell আছে। এটি একটি ~৫৭৬ megapixel sensor-এর সমতুল্য — কিন্তু আমরা কেবল ছোট একটি area-তেই (fovea) সর্বোচ্চ resolution পাই।

মেশিনের দৃষ্টি কীভাবে কাজ করে?

ক্যামেরায় আলো ঢোকে lens দিয়ে, পড়ে CMOS/CCD sensor-এ। প্রতিটি sensor cell আলোর intensity measure করে একটি সংখ্যায় (০–২৫৫) রূপান্তর করে। এই সংখ্যাগুলো মিলেই তৈরি হয় একটি digital image — যা আসলে একটি ম্যাট্রিক্স।

এরপর কম্পিউটার এই matrix-এ গাণিতিক operation চালায় (convolution, neural network) এবং অর্থ বের করে — “এটা একটি বিড়াল”, “এটা একটি signboard”।

তুলনা — পাশাপাশি

বৈশিষ্ট্য	মানুষের দৃষ্টি	মেশিন দৃষ্টি
Resolution	~৫৭৬ MP (fovea)	৪–১০৮ MP (sensor-নির্ভর)
Dynamic range	~২০ stops	১০–১৪ stops
Color perception	প্রায় ১ কোটি রঙ	সঠিকভাবে ১৬.৭ মিলিয়ন (8-bit)
Frame rate	~৬০ Hz	৩০–১০০০ FPS
Context understanding	অসাধারণ	সীমিত (model-নির্ভর)
Tireless operation	ক্লান্ত হয়	২৪/৭ চলতে পারে
Consistency	মুড/আলোর উপর নির্ভর	একদম stable

মূল শিক্ষা

মেশিন মানুষের চেয়ে দ্রুত ও consistent — কিন্তু context, common-sense ও creativity-তে এখনো অনেক পেছনে। CV-এর লক্ষ্য মানুষকে replace করা নয়, augment করা।

একটি ছোট experiment

চলুন দেখি একটি ছবি কম্পিউটারের কাছে কেমন “সংখ্যা” হিসেবে দেখা যায়।

python

machine_view.py

import cv2
import numpy as np

image = cv2.imread("face.jpg", cv2.IMREAD_GRAYSCALE)

# Print a small 8x8 region the way the machine sees it
region = image[100:108, 100:108]
print("Machine's view (intensity 0-255):")
print(region)

# Same region as percentage of brightness
print("\nAs brightness percentage:")
print(np.round(region / 255 * 100).astype(int))

বুঝে রাখুন

আমরা যেটাকে “মুখ” হিসেবে দেখি, মেশিনের কাছে সেটা শুধু কতগুলো 0–255-এর সংখ্যা। এই সংখ্যার pattern থেকে “মুখ” চেনাই CV-এর কাজ।

বাংলাদেশ context — মেশিন দৃষ্টির সুবিধা

বাংলাদেশের একটি গার্মেন্টস factory-তে quality inspector দিনে ৮ ঘণ্টা কাপড়ের ত্রুটি খোঁজেন। ক্লান্তির কারণে শেষ দিকে accuracy কমে যায়। একই কাজ যদি একটি CV সিস্টেম করে — accuracy সব সময় ৯৫%+ থাকে, ২৪/৭ চলে, এবং প্রতি মাসে হাজারো ত্রুটি প্রতিরোধ করে।

প্র্যাকটিস টাস্ক

একটি grayscale ছবির মাঝখানের ১৬×১৬ region print করে দেখুন।
চিন্তা করুন — কোন কাজে মানুষের দৃষ্টি জিতবে, কোন কাজে মেশিন জিতবে — ৫টি উদাহরণ লিখুন।
একটি video-তে ৩০ FPS মানে কত মিলিসেকেন্ডে একটি frame? এটি মানুষের চোখের তুলনায় কেমন?

সারসংক্ষেপ

মানুষের দৃষ্টি = চোখ + retina + visual cortex — context ও common-sense-এ অতুলনীয়।
মেশিন দৃষ্টি = lens + sensor + computation — speed, consistency ও scale-এ অতুলনীয়।
CV-এর লক্ষ্য — এই দুই দৃষ্টির সেরা features একত্র করা।
পরবর্তী অধ্যায়ে আমরা আরও গভীরভাবে দেখব — ছবি কীভাবে একটি ম্যাট্রিক্স।