অধ্যায়Phase 1 · ফাউন্ডেশন
1.2 10 মিনিট পড়া

মানুষের দৃষ্টি বনাম মেশিন দৃষ্টি

চোখ ও ক্যামেরার মৌলিক পার্থক্য।

🎬 গল্প দিয়ে শুরু
আপনার চোখ এই মুহূর্তে এক সেকেন্ডে প্রায় ১০ মিলিয়ন bit তথ্য মস্তিষ্কে পাঠাচ্ছে। মস্তিষ্ক সেগুলো প্রসেস করে চিনছে — অক্ষর, রঙ, দূরত্ব, ভাব। সব মাত্র মিলিসেকেন্ডে। একটি ক্যামেরা ও কম্পিউটার মিলে কি এর কাছাকাছি পৌঁছাতে পারে?

মানুষের দৃষ্টি কীভাবে কাজ করে?

মানুষের দৃষ্টি একটি অসাধারণ biological সিস্টেম। আলো চোখের cornea দিয়ে ঢোকে, lens দিয়ে focus হয়, retina-তে পৌঁছায়, সেখানে rod cone cell আলোকে electrical signal-এ রূপান্তর করে। এরপর optic nerveদিয়ে signal যায় visual cortex-এ — মস্তিষ্কের পেছনের অংশে — যেখানে চিনতে পারা ঘটে।

চমকপ্রদ তথ্য
আপনার retina-তে প্রায় ১২ কোটি rod (light/dark) এবং ৬০ লাখ cone (color) cell আছে। এটি একটি ~৫৭৬ megapixel sensor-এর সমতুল্য — কিন্তু আমরা কেবল ছোট একটি area-তেই (fovea) সর্বোচ্চ resolution পাই।

মেশিনের দৃষ্টি কীভাবে কাজ করে?

ক্যামেরায় আলো ঢোকে lens দিয়ে, পড়ে CMOS/CCD sensor-এ। প্রতিটি sensor cell আলোর intensity measure করে একটি সংখ্যায় (০–২৫৫) রূপান্তর করে। এই সংখ্যাগুলো মিলেই তৈরি হয় একটি digital image — যা আসলে একটি ম্যাট্রিক্স।

এরপর কম্পিউটার এই matrix-এ গাণিতিক operation চালায় (convolution, neural network) এবং অর্থ বের করে — “এটা একটি বিড়াল”, “এটা একটি signboard”।

তুলনা — পাশাপাশি

বৈশিষ্ট্যমানুষের দৃষ্টিমেশিন দৃষ্টি
Resolution~৫৭৬ MP (fovea)৪–১০৮ MP (sensor-নির্ভর)
Dynamic range~২০ stops১০–১৪ stops
Color perceptionপ্রায় ১ কোটি রঙসঠিকভাবে ১৬.৭ মিলিয়ন (8-bit)
Frame rate~৬০ Hz৩০–১০০০ FPS
Context understandingঅসাধারণসীমিত (model-নির্ভর)
Tireless operationক্লান্ত হয়২৪/৭ চলতে পারে
Consistencyমুড/আলোর উপর নির্ভরএকদম stable
মূল শিক্ষা
মেশিন মানুষের চেয়ে দ্রুত ও consistent — কিন্তু context, common-sense ও creativity-তে এখনো অনেক পেছনে। CV-এর লক্ষ্য মানুষকে replace করা নয়, augment করা।

একটি ছোট experiment

চলুন দেখি একটি ছবি কম্পিউটারের কাছে কেমন “সংখ্যা” হিসেবে দেখা যায়।

python
machine_view.py
import cv2
import numpy as np

image = cv2.imread("face.jpg", cv2.IMREAD_GRAYSCALE)

# Print a small 8x8 region the way the machine sees it
region = image[100:108, 100:108]
print("Machine's view (intensity 0-255):")
print(region)

# Same region as percentage of brightness
print("\nAs brightness percentage:")
print(np.round(region / 255 * 100).astype(int))
বুঝে রাখুন
আমরা যেটাকে “মুখ” হিসেবে দেখি, মেশিনের কাছে সেটা শুধু কতগুলো 0–255-এর সংখ্যা। এই সংখ্যার pattern থেকে “মুখ” চেনাই CV-এর কাজ।

বাংলাদেশ context — মেশিন দৃষ্টির সুবিধা

বাংলাদেশের একটি গার্মেন্টস factory-তে quality inspector দিনে ৮ ঘণ্টা কাপড়ের ত্রুটি খোঁজেন। ক্লান্তির কারণে শেষ দিকে accuracy কমে যায়। একই কাজ যদি একটি CV সিস্টেম করে — accuracy সব সময় ৯৫%+ থাকে, ২৪/৭ চলে, এবং প্রতি মাসে হাজারো ত্রুটি প্রতিরোধ করে।

প্র্যাকটিস টাস্ক
  1. একটি grayscale ছবির মাঝখানের ১৬×১৬ region print করে দেখুন।
  2. চিন্তা করুন — কোন কাজে মানুষের দৃষ্টি জিতবে, কোন কাজে মেশিন জিতবে — ৫টি উদাহরণ লিখুন।
  3. একটি video-তে ৩০ FPS মানে কত মিলিসেকেন্ডে একটি frame? এটি মানুষের চোখের তুলনায় কেমন?

সারসংক্ষেপ

  • মানুষের দৃষ্টি = চোখ + retina + visual cortex — context ও common-sense-এ অতুলনীয়।
  • মেশিন দৃষ্টি = lens + sensor + computation — speed, consistency ও scale-এ অতুলনীয়।
  • CV-এর লক্ষ্য — এই দুই দৃষ্টির সেরা features একত্র করা।
  • পরবর্তী অধ্যায়ে আমরা আরও গভীরভাবে দেখব — ছবি কীভাবে একটি ম্যাট্রিক্স।