ری‌کپچا: سازمان بازیافت متون قدیمی

۱۱ تیر ۱۳۸۶

ReCaptcha Projectزیگ‌زاگ– در حالت عادی هیچ کسی دوست ندارد که رو دست بخورد ولی گاهی وقت‌ها رودست خوردن چنان شیرین می‌شود که ممکن است به استقبالش هم برویم. درباره بازی برچسب‌زنی گوگل نوشتیم که چگونه ممکن است همراه بازی به بهینه‌سازی جست‌وجو در گوگل کمک کرد. این بار اما صحبت از «کپچاهای ترجمه» است. روشی که باعث می‌شود تا یک کتاب ناخوانا، قابل خواندن شود. ترجمه یک کتاب غیرقابل خواندن به کتابی خواندنی.
جنگ اسپمرها
کپچا یک عکس با حروف و اعداد کج و معوج است که شما هنگام پر کردن یک فرم در اینترنت بارها با آن برخورد کرده‌اید. خاصیت کپچا (CAPTCHA) این است که انسان می‌تواند به‌سادگی آن را بخواند ولی در حال حاضر یک ماشین (کامپیوتر) نمی‌تواند. سایت‌های زیادی از کپچا استفاده می‌کنند تا فرستندگان هرزنامه (Spam) نتوانند خراب‌کاری کنند.
خراب‌کاران عقب‌نشینی نمی‌کنند. آنها شمشیر را از رو بسته‌اند و راه‌هایی برای مقابله با کپچاها دارند. یک راه هرزنامه‌نویسان (Spammer) در این مبارزه، ایجاد سایت‌های پورنوگرافی هست. آنها یک سایت پورنوگرافی درست می‌کنند و در بخش ثبت‌نام، کپچایی را قرار می‌دهند که از سایت موردعلاقه‌شان برداشته شده است. شما برای دیدن محتوای سایت پورنوگرافی مجبور هستید معمای کپچا را حل کنید. اینجاست که هرزنامه‌نویس ورودی شما را به نفع خود مصادره می‌کند و شما در نقش یک کارگر هوسران، مشکل هرزنامه‌نویسان را حل می‌کنید. [+]


دو روی سکه
این تنها یک روی ماجراست. روزانه بیش از ۶۰ میلیون کپچا توسط میلیون‌ها کاربر پر می‌شوند. دانشمندان هم تصمیم گرفته‌اند مانند هرزنامه‌نویسان از این خاصیت استفاده کنند. با این تفاوت که کمتر کسی ناراضی خواهد بود.
این بار به جای تولید اتفاقی کپچاها به صورت حروف و اعداد، کلماتی قرار داده می‌شود که از کتاب‌های قدیمی اسکن شده‌اند. در مورد کتب قدیمی هم مشکل بازیابی حروف توسط ماشین برقرار است. شما با تشخیص این حروف در حال کمک به بازیابی متن یک کتاب قدیمی هستید و برگی به دانش بشر می‌افزایید.
یک باگ کوچولو
تنها سؤالی که ممکن است برایتان پیش بیاید این است که متن کپچاهایی که برای مقابله با اسپمرها در سایت قرار داده می‌شود مشخص است. یعنی ماشین نسخه درستش را دارد و با مقایسه آنچه شما وارد می‌کنید، انسان بودنتان را تشخیص می‌دهد. حال پرسش این است: اگر ماشین می‌دانست که متن بریده‌شده از کتاب قدیمی چیست که دیگر نیازی به همکاری انسان برای ترجمه و درک آن نبود!
شما درست می‌گویید. اما راه‌های زیادی برای تأیید رشته ورودی وجود دارد. یکی آن که هر تکه از کتاب را برای دو نفر نمایش دهند و در صورت تطابق ورودی‌های دو نفر، درستی ورودی تأیید شود (درست مانند بازی برچسب‌زنی گوگل). راه دیگر آن که به هر فرد دو رشته اختصاص داده شود. متن یکی از این رشته‌ها قبلاً و در فرآیندی جداگانه تشخیص داده شده اما محتوای دومی نامعلوم است. اگر فردی ورودی رشته اول را درست وارد کرد، ماشین به طور منطقی نتیجه می‌گیرد که به احتمال زیاد متن دوم هم درست وارد شده است.
هرزنامه کافی‌ست، کتاب بخوانید
سایت ری‌کپچا دقیقاً به همین منظور ایجاد شده است. «هرزنامه کافی‌ست، کتاب بخوانید» این شعار سایتی است که می‌خواهد متون کتب قدیمی را بازیافت کند. این پروژه کدباز (Open Source) که توسط دانشکده کامپیوتر دانشگاه «کارنگی ملون» دنبال می‌شود، توانسته پشتیبانان قدرتمندی چون شرکت اینتل و ناول برای این کار بیابد. در عین حال هر کسی که علاقمند است تا بازدیدکنندگان سایت یا وبلاگش را به همکاری با این کار دعوت کند، می‌تواند با عضویت در سایت ری‌کپچا کدی دریافت کرده و آن را در سایت خود قرار دهد تا بازدیدکنندگانش در این امر خیر، مشارکت کنند. شما چطور؟ نمی‌خواهید بازیافت را امتحان کنید؟
پاورقی:



کپچا چیست؟
شما هنگام پر کردن فرم‌های عضویت در سایت‌ها حتماً به تصویری برخورد کرده‌اید که مجموعه‌ای از اعداد و حروف کج و معوج را در خود جای داده‌اند. هیچ گاه فکر کرده‌اید که این تصاویر کهCaptcha نامیده می‌شوند به چه دردی می‌خورند؟
اگر با شیوه کارکرد موتورهای جست‌وجو آشنا باشید، می‌دانید که روبات‌های جست‌وجو به چه عواملی حساس هستند. شاید بارها از خود پرسیده‌اید که ترتیب نمایش سایت‌ها در صفحه نتایج جست‌وجوی یک کلمه در گوگل بر چه اساس است. یعنی چرا سایت «الف» بالاتر از سایت «ب» نمایش داده می‌شود. یکی از علت‌ها این است که کلمه مورد جست‌وجوی شما در سایت‌ها و وبلاگ‌های زیادی درج شده است. اگر در مجموع، این کلمه به سایت «الف» بیشتر لینک شده باشد از نظر موتور جست‌وجو سایت «الف» به کلمه مورد نظر شما بیشتر مربوط است و در نهایت رتبه بهتری را نسبت به سایت «ب» در نتایج جست‌وجو به خود اختصاص خواهد داد [+]. برخی مواقع از این خاصیت ارتباطی سوءاستفاده می‌شود. مثال بارز آن را در «بمب‌های گوگلی» می‌بینید. در مورد بمب گوگلی خلیج فارس، تعداد زیادی وبلاگ کلمه «خلیج عربی» را به صفحه‌ای لینک کردند که در آن جمله «خلیج عربی وجود ندارد» مشاهده می‌شد. پس از عمل کردن بمب، نخستین نتیجه جست‌وجو برای «خلیج عربی» به این صفحه اشاره می‌کرد.
برخی از سایت‌ها از این خاصیت گوگل سوءاستفاده می‌کنند. آنها روبات‌هایی را به جان صفحات اینترنتی می‌اندازند تا هر جا که فرمی شبیه به نظرخواهی دیده شد، یک لینک به سایتشان در آنجا درج شود و به این ترتیب رتبه سایت در گوگل بالا برود.
کپچا برای جلوگیری از این نوع تقلب‌ها کاربرد پیدا می‌کند. متن درون یک کپچا که متشکل از حروف و اعداد تغییرشکل داده‌شده است، توسط روبات‌ها غیرقابل خواندن است. تکنیک‌های بازشناسی حروف توسط کامپیوتر (OCR) هم در اغلب مواقع از این تشخیص عاجزند. تنها هوش انسانی است که می‌تواند این حروف و اعداد را بشناسد. شما که در حال پر کردن چنین فرمی هستید، می‌توانید یک کپچا را تشخیص دهید و آن را در کادر وارد کنید اما یک روبات دقیقاً همین جا با بن‌بست مواجه می‌شود.

Be Sociable, Share!


دیدگاه‌های شما

 
  1. رفا گفت:

    این ایده‌ها منو آخرش می‌کشن.

  2. hossein mazidi گفت:

    دستت درد نکنه نیما جان. استفاده کردیم.
    جالبه که پلاگین برای وردپرس هم دارد. ای کاش از این ریکپچا می‌توانستیم برای زبان فارسی هم استفاده کنیم!!
    احتمالاً باید تا صدها سال فقط آرزو کنیم.
    نیما: مثل خیلی از آرزوهای دیگری که داریم. بله برای مووبل‌تایپ و سی‌ام اس‌های دیگر هم پلاگینش آماده شده است.

  3. تهمينه گفت:

    سلام آقای اکبرپور، خسته نباشید.
    شما نمی‌دونید چه مشکلی برای تالار گفتگوی چلچراغ بوجود اومده که باز نمی‌شه؟
    نیما: مشکل سایت اساسیه. ببینیم چطور می‌شه حلش کرد.

  4. دست بالای دست بسیار است. هر ایده و خلاقیتی از ذهن بشر میاد. پس مقابله کردن با اون هم کار همون بشره.
    هیچ وقت به امنیت محض اعتقاد نداشتم…

  5. نيما گفت:

    آقا حس ایمیل نبود! همین جا سرپایی انجامش می‌دیم! این آدرس بلاگ:cezarian.blogfa.com ..راستی اون برگه هه چی شد؟!
    نیما: من می‌میرم برای عمل سرپایی! اون برگهه احتمالاً توسط حسین آقا معدوم شد. لینکتون هم داده شد بد رقم.

  6. MEHDI گفت:

    سلام وب قشنگی داری. امیدوارم ناراحتتون نکرده باشم اما اگه اگه با تبادل لینک موافقی منو به نام (رپ فارسی) ثبت کن و به وب من بیا بگو چی ثبتت کنم. من روزی چند بار آپ می‌کنم هر بار که پیام بدی تا آخر اون روز ثبت می‌شی. اگه خواستی به دوستای وبلاگ‌نویستون هم بگویید.

  7. آیدین محمد ولی پور گفت:

    با تشکر از مطلب زیباتون و نظری که راجع به مطلب من در همین مورد در پریانا دادید! امیدوارم همکاری‌هامون بیشتر بشه !

    • No bookmarks avaliable.