বৃদ্ধ ব্যক্তির রাজনৈতিক মন্তব্যের বলে এআই ভিডিও প্রচার
বুম বাংলাদেশ দেখেছে, বৃদ্ধের মন্তব্য দাবিতে প্রচারিত ভিডিওটি বাস্তব কোনো দৃশ্যের নয় বরং এআই প্রযুক্তিতে তৈরি করা হয়েছে।

সামাজিক যোগাযোগ মাধ্যম ফেসবুকে একটি ভিডিও পোস্ট করা হয়েছে। ভিডিওতে দেখা যাচ্ছে একজন বৃদ্ধ ব্যক্তি বলছেন, “জামায়াত-শিবিরের লোকজন আমাদের নির্যাতন করেছে। তারা বারবার হুমকি দিচ্ছে দাঁড়িপাল্লায় ভোট না দিলে ভোটকেন্দ্রে আমাদের অবস্থা খারাপ করে দিবে ............ আমরা সবাই ধানের শীষে ভোট দিবো।” এ ধরনের দুটি পোস্ট দেখুন এখানে ও এখানে।
গত ২৪ জানুয়ারি 'Mohammed Oliur Rahman' নামের একটি ফেসবুক প্রোফাইল থেকে ভিডিওটি পোস্ট করা হয়। পোস্টে উল্লেখ করা হয় "ব্রেকিং নিউজ: গ্রামের বয়স্করা ভোটের হুমকিতে কাঁপছে – দেখুন সত্য ঘটনা।" পোস্টটির স্ক্রিনশট দেখুন--
ফ্যাক্ট চেক:
বুম বাংলাদেশ যাচাই করে দেখেছে, দাবিটি সঠিক নয়। ভিডিওটি বাস্তবে এক বৃদ্ধার দেওয়া কোনো রাজনীতি সংশ্লিষ্ট বক্তব্যের নয় বরং ভিডিওটি এআই প্রযুক্তির সহায়তায় তৈরি করা হয়েছে।
আলোচ্য ভিডিওটি থেকে কী-ফ্রেম নিয়ে সার্চ করে এবং ভিডিওতে প্রচারিত দাবি (বক্তব্য) সরাসরি সার্চ করে গণমাধ্যমসহ গ্রহণযোগ্য কোনো মাধ্যমে কোনো উল্লেখযোগ্য তথ্য পাওয়া যায়নি। পরবর্তীতে ভিডিওটি পর্যবেক্ষণে কথা বলার সময় কথিত বক্তার মুখের ভঙ্গিমায় কিছু অসঙ্গতি পাওয়া যায়। এছাড়াও তার পেছনের দাঁড়িয়ে থাকা ব্যক্তিদেরও ভঙ্গিমা স্বাভাবিক দৃশ্যের মতো নয়। এমনকি ভিডিওতে মূল বক্তার আলাদা আলাদা দুইটি ভিডিওর সংযুক্ত অবস্থা দেখা গেছে।
এছাড়াও, ভিডিওতে বাস্তব দৃশ্যের অডিওর তুলনায় বক্তার কথা বলার সাউন্ড কিছুটা অস্বাভাবিক মনে হয়েছে। গুগলের ভিও-৩ বা তার পরবর্তী সংস্করণের মডেল ব্যবহার করে তৈরি করা এআই ভিডিওতে অডিওর এমন উচ্চ মাত্রার আউটপুট শোনা যায়।
গুগল 'Veo' হলো গুগলের একটি প্রায় বাস্তবসম্মত ভিডিও জেনারেশন টুল যা গুগল ডিপমাইন্ড দ্বারা তৈরি করা হয়েছে। এটি টেক্সট-টু-ভিডিও জেনারেশন, ইমেজ-টু-ভিডিও তৈরি করার টুল এবং সর্বশেষ সংস্করণ, Veo-3 (ভিও-৩) ভিডিওর পাশাপাশি নেটিভ অডিও তৈরি করতে পারে।
এছাড়াও গুগলের জেনারেটিভ টুল তাদের কন্টেন্টে 'SynthID' নামক এক ধরণের ওয়াটারমার্কিং ব্যবহার করে যা শোনা যায় না বা খালি চোখে শনাক্ত করা যায়না। তবে গুগলের SynthID ডিটেকশন টুল সেটি শনাক্ত করতে পারে। এই প্রক্রিয়ায় যাচাই করলে টুলটি আলোচ্য ভিডিওর অডিওকে 'গুগলের এআই টুল দিয়ে তৈরি' বলে ফলাফল দিয়েছে। দেখুন--
অডিওতে 'SynthID' শনাক্ত করলেও টুলটি ভিডিওতে 'SynthID' শনাক্ত করতে পারেনি। সাধারণত একটি ভিও-জেনারেটেড ভিডিওর কোয়ালিটি বিভিন্ন কারণে স্বাভাবিকের তুলনায় কম হয়ে গেলে কিংবা সম্পাদনার কারণে কম্প্রেস হলে বিশেষ করে ভিডিওর ক্ষেত্রে 'SynthID' ওয়াটারমার্ক শনাক্ত করা কঠিন হয়ে যায় কিংবা শনাক্ত হয়না।
আলোচ্য ভিডিওতেও (মূল ভিডিওটিতে) সম্পাদনা করে টেক্সট যুক্ত করা হয়েছিলো। আবার যেহেতু বক্তার মুখভঙ্গির সাথে অডিও তথা শব্দের উচ্চারণের মিল রয়েছে তাই বলা যায় যে ভিডিওটি এবং অডিওটি আলাদাভাবে তৈরি করে যথাযথভাবে যুক্ত করার বিষয়টিও সাধারণভাবে অসম্ভব। অর্থাৎ, ভিডিওটি গুগলের ভিডিও জেনারেটিভ টুল (ভিও) ব্যবহার করে তৈরি করা হয়েছে।
পরবর্তীতে আরেক জেনারেটিভ কন্টেন্ট শনাক্তকরণ টুল 'Sightengine'-এর মাধ্যমে যাচাই করলেও টুলটি ভিডিওটিকে এআই দ্বারা তৈরি বলে ফলাফল দিয়েছে। টুলটি এমনকি ভিডিওটিকে সম্ভাব্য ভিও টুলের মাধ্যমে তৈরি বলেই ফলাফল দিয়েছে। দেখুন--
অর্থাৎ ভিডিওটি এআই প্রযুক্তির সহায়তায় তৈরি করা হয়েছে।
উল্লেখ্য ভিডিওটির স্থিরচিত্র থেকে সার্চ করে কোনো ফলাফল পাওয়া যায়নি। যদি কোনো বাস্তব ব্যক্তির স্থিরচিত্র থেকে ভিডিও তৈরি করা হয় তাহলে এআই জেনারেটেড ভিডিও ডিপফেক ভিডিওতে পরিণত হয়।
সুতরাং সামাজিক মাধ্যমে এআই প্রযুক্তিতে তৈরি একটি ভিডিওকে বাস্তবে এক বৃদ্ধার দেওয়া বক্তব্যের বলে প্রচার করা হয়েছে, যা বিভ্রান্তিকর।




