زیگزاگ– در حالت عادی هیچ کسی دوست ندارد که رو دست بخورد ولی گاهی وقتها رودست خوردن چنان شیرین میشود که ممکن است به استقبالش هم برویم. درباره بازی برچسبزنی گوگل نوشتیم که چگونه ممکن است همراه بازی به بهینهسازی جستوجو در گوگل کمک کرد. این بار اما صحبت از «کپچاهای ترجمه» است. روشی که باعث میشود تا یک کتاب ناخوانا، قابل خواندن شود. ترجمه یک کتاب غیرقابل خواندن به کتابی خواندنی.
جنگ اسپمرها
کپچا یک عکس با حروف و اعداد کج و معوج است که شما هنگام پر کردن یک فرم در اینترنت بارها با آن برخورد کردهاید. خاصیت کپچا (CAPTCHA) این است که انسان میتواند بهسادگی آن را بخواند ولی در حال حاضر یک ماشین (کامپیوتر) نمیتواند. سایتهای زیادی از کپچا استفاده میکنند تا فرستندگان هرزنامه (Spam) نتوانند خرابکاری کنند.
خرابکاران عقبنشینی نمیکنند. آنها شمشیر را از رو بستهاند و راههایی برای مقابله با کپچاها دارند. یک راه هرزنامهنویسان (Spammer) در این مبارزه، ایجاد سایتهای پورنوگرافی هست. آنها یک سایت پورنوگرافی درست میکنند و در بخش ثبتنام، کپچایی را قرار میدهند که از سایت موردعلاقهشان برداشته شده است. شما برای دیدن محتوای سایت پورنوگرافی مجبور هستید معمای کپچا را حل کنید. اینجاست که هرزنامهنویس ورودی شما را به نفع خود مصادره میکند و شما در نقش یک کارگر هوسران، مشکل هرزنامهنویسان را حل میکنید. [+]
دو روی سکه
این تنها یک روی ماجراست. روزانه بیش از ۶۰ میلیون کپچا توسط میلیونها کاربر پر میشوند. دانشمندان هم تصمیم گرفتهاند مانند هرزنامهنویسان از این خاصیت استفاده کنند. با این تفاوت که کمتر کسی ناراضی خواهد بود.
این بار به جای تولید اتفاقی کپچاها به صورت حروف و اعداد، کلماتی قرار داده میشود که از کتابهای قدیمی اسکن شدهاند. در مورد کتب قدیمی هم مشکل بازیابی حروف توسط ماشین برقرار است. شما با تشخیص این حروف در حال کمک به بازیابی متن یک کتاب قدیمی هستید و برگی به دانش بشر میافزایید.
یک باگ کوچولو
تنها سؤالی که ممکن است برایتان پیش بیاید این است که متن کپچاهایی که برای مقابله با اسپمرها در سایت قرار داده میشود مشخص است. یعنی ماشین نسخه درستش را دارد و با مقایسه آنچه شما وارد میکنید، انسان بودنتان را تشخیص میدهد. حال پرسش این است: اگر ماشین میدانست که متن بریدهشده از کتاب قدیمی چیست که دیگر نیازی به همکاری انسان برای ترجمه و درک آن نبود!
شما درست میگویید. اما راههای زیادی برای تأیید رشته ورودی وجود دارد. یکی آن که هر تکه از کتاب را برای دو نفر نمایش دهند و در صورت تطابق ورودیهای دو نفر، درستی ورودی تأیید شود (درست مانند بازی برچسبزنی گوگل). راه دیگر آن که به هر فرد دو رشته اختصاص داده شود. متن یکی از این رشتهها قبلاً و در فرآیندی جداگانه تشخیص داده شده اما محتوای دومی نامعلوم است. اگر فردی ورودی رشته اول را درست وارد کرد، ماشین به طور منطقی نتیجه میگیرد که به احتمال زیاد متن دوم هم درست وارد شده است.
هرزنامه کافیست، کتاب بخوانید
سایت ریکپچا دقیقاً به همین منظور ایجاد شده است. «هرزنامه کافیست، کتاب بخوانید» این شعار سایتی است که میخواهد متون کتب قدیمی را بازیافت کند. این پروژه کدباز (Open Source) که توسط دانشکده کامپیوتر دانشگاه «کارنگی ملون» دنبال میشود، توانسته پشتیبانان قدرتمندی چون شرکت اینتل و ناول برای این کار بیابد. در عین حال هر کسی که علاقمند است تا بازدیدکنندگان سایت یا وبلاگش را به همکاری با این کار دعوت کند، میتواند با عضویت در سایت ریکپچا کدی دریافت کرده و آن را در سایت خود قرار دهد تا بازدیدکنندگانش در این امر خیر، مشارکت کنند. شما چطور؟ نمیخواهید بازیافت را امتحان کنید؟
پاورقی:
کپچا چیست؟
شما هنگام پر کردن فرمهای عضویت در سایتها حتماً به تصویری برخورد کردهاید که مجموعهای از اعداد و حروف کج و معوج را در خود جای دادهاند. هیچ گاه فکر کردهاید که این تصاویر کهCaptcha نامیده میشوند به چه دردی میخورند؟
اگر با شیوه کارکرد موتورهای جستوجو آشنا باشید، میدانید که روباتهای جستوجو به چه عواملی حساس هستند. شاید بارها از خود پرسیدهاید که ترتیب نمایش سایتها در صفحه نتایج جستوجوی یک کلمه در گوگل بر چه اساس است. یعنی چرا سایت «الف» بالاتر از سایت «ب» نمایش داده میشود. یکی از علتها این است که کلمه مورد جستوجوی شما در سایتها و وبلاگهای زیادی درج شده است. اگر در مجموع، این کلمه به سایت «الف» بیشتر لینک شده باشد از نظر موتور جستوجو سایت «الف» به کلمه مورد نظر شما بیشتر مربوط است و در نهایت رتبه بهتری را نسبت به سایت «ب» در نتایج جستوجو به خود اختصاص خواهد داد [+]. برخی مواقع از این خاصیت ارتباطی سوءاستفاده میشود. مثال بارز آن را در «بمبهای گوگلی» میبینید. در مورد بمب گوگلی خلیج فارس، تعداد زیادی وبلاگ کلمه «خلیج عربی» را به صفحهای لینک کردند که در آن جمله «خلیج عربی وجود ندارد» مشاهده میشد. پس از عمل کردن بمب، نخستین نتیجه جستوجو برای «خلیج عربی» به این صفحه اشاره میکرد.
برخی از سایتها از این خاصیت گوگل سوءاستفاده میکنند. آنها روباتهایی را به جان صفحات اینترنتی میاندازند تا هر جا که فرمی شبیه به نظرخواهی دیده شد، یک لینک به سایتشان در آنجا درج شود و به این ترتیب رتبه سایت در گوگل بالا برود.
کپچا برای جلوگیری از این نوع تقلبها کاربرد پیدا میکند. متن درون یک کپچا که متشکل از حروف و اعداد تغییرشکل دادهشده است، توسط روباتها غیرقابل خواندن است. تکنیکهای بازشناسی حروف توسط کامپیوتر (OCR) هم در اغلب مواقع از این تشخیص عاجزند. تنها هوش انسانی است که میتواند این حروف و اعداد را بشناسد. شما که در حال پر کردن چنین فرمی هستید، میتوانید یک کپچا را تشخیص دهید و آن را در کادر وارد کنید اما یک روبات دقیقاً همین جا با بنبست مواجه میشود.
این ایدهها منو آخرش میکشن.
دستت درد نکنه نیما جان. استفاده کردیم.
جالبه که پلاگین برای وردپرس هم دارد. ای کاش از این ریکپچا میتوانستیم برای زبان فارسی هم استفاده کنیم!!
احتمالاً باید تا صدها سال فقط آرزو کنیم.
نیما: مثل خیلی از آرزوهای دیگری که داریم. بله برای مووبلتایپ و سیام اسهای دیگر هم پلاگینش آماده شده است.
سلام آقای اکبرپور، خسته نباشید.
شما نمیدونید چه مشکلی برای تالار گفتگوی چلچراغ بوجود اومده که باز نمیشه؟
نیما: مشکل سایت اساسیه. ببینیم چطور میشه حلش کرد.
دست بالای دست بسیار است. هر ایده و خلاقیتی از ذهن بشر میاد. پس مقابله کردن با اون هم کار همون بشره.
هیچ وقت به امنیت محض اعتقاد نداشتم…
آقا حس ایمیل نبود! همین جا سرپایی انجامش میدیم! این آدرس بلاگ:cezarian.blogfa.com ..راستی اون برگه هه چی شد؟!
نیما: من میمیرم برای عمل سرپایی! اون برگهه احتمالاً توسط حسین آقا معدوم شد. لینکتون هم داده شد بد رقم.
سلام وب قشنگی داری. امیدوارم ناراحتتون نکرده باشم اما اگه اگه با تبادل لینک موافقی منو به نام (رپ فارسی) ثبت کن و به وب من بیا بگو چی ثبتت کنم. من روزی چند بار آپ میکنم هر بار که پیام بدی تا آخر اون روز ثبت میشی. اگه خواستی به دوستای وبلاگنویستون هم بگویید.
با تشکر از مطلب زیباتون و نظری که راجع به مطلب من در همین مورد در پریانا دادید! امیدوارم همکاریهامون بیشتر بشه !