محتوای پارسی در وب و مترجم آنلاین گوگل

Persian Content Webدر خبرها آمده که زبان پارسی در میان زبان‌های رایج در اینترنت رتبه قابل توجهی ندارد و سهم زبان پارسی از محتوای روی اینترنت بسیار ناچیز است. این در حالی است که تا پیش از این تبلیغات و مانور زیادی درباره رتبه سوم زبان پارسی در میان زبان‌های وبلاگی داده می‌شد کما این که در یکی از نوشته‌های قبلیم به سقوط زبان پارسی در میان زبان‌های رایج در اینترنت اشاره کرده بودم.
باید بپذیرم که ما پارسی‌زبانان جزیره‌ای دور افتاده و ایزوله در میان اینترنت هستم. قوانین مخصوص به خودمان را داریم و در اغلب موارد نسخه خاص و واکنش‌های ویژه خودمان را در قبال کنش‌ها و اتفاقات پیرامون خود نشان می‌دهیم که بعضاً متفاوت از سایرین است. تنها نقطه ارتباطی ما با دنیای بیرون معدود وبلاگ‌هایی هستند که تعداد بیشترشان را ایرانیان خارج از کشور تشکیل می‌دهند و طبیعی است که روایت خودشان را از اتفاقات بیوسفر ایرانی دارند و درصد اعظم بلاگرهای ایرانی و داخل کشور محتوای خود را کمتر به زبان‌های رایج تولید می‌کنند. این مشکل دلایل متعددی دارد. یکی از این دلایل که در خور تأمل بسیاری است، عدم آشنای نسلی از وبلاگ‌نوسان با زبان انگلیسی یا سایر زبان‌های رایج در دنیا است. این نسل، نسل دهه چهل و پنجاه است. نسلی که در زمان جنگ رشد و نمو کرده است و بدیهی است که در زمان رشد، ملزومات و دغدغه‌های بزرگ‌تری داشته به جای این که به تقویت زبان خود بپردازد و نه خود بلکه خانواده‌اش هم نتوانسته‌اند در آن زمان مقدمه رشد زبانی او را فراهم آورند. اما نسلی که هم‌اکنون به وبلاگ روی آورده، با این محدودیت‌ها رو به رو نیست. بیشتر زبان می‌داند و اگر بخواهد روان‌تر می‌نویسد. پس شاید بهتر باشد منتظر بمانیم تا این گروه تولید محتوا را جدی‌تر بگیرند.
هم اکنون برای پر شدن این خلاء به شدت نیاز مترجم‌های آنلاین و روبوت‌های خودکار ترجمه‌گر حس می‌شود. برنامه‌هایی که به طور خودکار محتوای یک زبان را به زبان مقصد ترجمه می‌کنند و طیف وسیع‌تری از بازدیدکنندگان را برای یک محتوا فراهم می‌سازند. در صورت به انجام رسیدن چنین پروژه‌هایی بلاگرهای پارسی‌نویس می‌توانند مخاطبانی به زبان‌های دیگر داشته باشند چرا که نوشته‌هایشان با کلیک روی یک لینک خود به خود به زبان‌هایی چون انگلیسی، فرانسوی، آلمانی، پرتغالی، چینی و ژاپنی ترجمه می‌شود. در خبرها آمده است که گوگل در حال تولید مترجمی برای ترجمه زبان پارسی به سایر زبان‌ها و در درجه اول انگلیسی است. پروژه‌ای که هنوز ناقص است و فعلاً می‌تواند پارسی را به پنگلیش و تعدادی از کلمات را به انگلیسی ترجمه کند. هنوز راه درازی تا یک مترجم آنلاین کاربردی در پیش است. با کمی دقت می‌توانیم مشکلات در پیش راه این مترجم‌ها را ببینیم. مترجم آنلاین برای ارائه یک ترجمه درست از زبان پارسی باید با مشکلات زیاد و متعددی دست و پنجه نرم کند. یکی از این مشکلات تفاوت نگارشی در زبان پارسی است. مشکلی که در نگارش زبان‌های دیگر به علت وجود فاصله میان حروف کلمات وجود ندارد. در زبان‌های دیگر هر کلمه از حروف مجزا تشکیل شده است در حالی که نگارش در زبان پارسی به علت وجود فاصله‌ها، نیم‌فاصله‌ها، پسوندهایی مانند «تر، ترین، ها و…»، ک پارسی و ک عربی ی آخر پارسی و ی آخر عربی و قوانین دیگر نگارشی مترجم‌ها برای تشخص کلمات پارسی نیاز به الگوریتمی به مراتب پیشرفته‌تر و پیچیده‌تر دارند. ضمن این که نباید از نظر دور داشت این نکته را که زبان حجم اعظم محتوای پارسی که وبلاگ‌ها باشند، نثر شکسته است و ترجمه این متون نیز دردسری مضاعف برای زبان پارسی است. مسلما‍ً متخصصان هوش مصنوعی می‌توانند در این زمینه توضیحاتی مفصل و علمی بنویسند.
به نظر من از هم اکنون باید به فکر باشیم. شاید لازم باشد حداقل این نکته را به بحث بگذاریم. به نظر من لازم است که بدانیم که آیا باید شیوه‌ای مناسب را برای نوشتن انتخاب کنیم یا این که تمام بار را بر دوش مترجم منتقل کنیم. مترجمی که هنوز طفل شیرخواره‌ای است که ناتوان است. بیندیشیم، بنویسیم و بحث کنیم. شاد نتیجه‌ای حاصل شد.


مرتبط:
– آیا گوگل در حال ساخت مترجم هوشمند فارسی است؟ [+]
– کاش فردوسی زنده بود! [+]
– در حاشیه فردوسی و زبان فارسی و اینترنت [+]
– توافق [+]
– یادآوری سه قانون ساده‌ی نوشتن در کامپیوتر و برای وب. [+]
– سقوط زبان فارسی در رتبه‌بندی وبلاگ‌ها. [+]
– اگر گوگل صفحات فارسی را به زبان‌های دیگر ترجمه کند. [+]
– یک‌سوم کل کاربران جهان از زبان انگلیسی استفاده می‌کنند، سهم ناچیز زبان فارسی قابل ذکر نبود. [+]
– وبلاگ‌نویسی، در مواردی موجب ارتقا و تعادل زبان فارسی می‌شود. [+]
– وبلاگ‌نویسی به جمع‌آوری ادبیات شفاهی کمک می‌کند. [+]
– وبلاگ‌نویسی فرصتی برای گسترش زبان فارسی است، زبان غالب وبلاگ‌ها شبیه به «نثر شکسته» است. [+]
– فرهنگستان می‌تواند با بررسی واژه‌های مورد استفاده در وبلاگ‌ها، آن‌ها را وارد زبان فارسی کند. [+]
– سرویس‌دهندگان وبلاگ فارسی، استفاده درست از زبان را آموزش دهند، نمی‌توان چارچوبی برای زبان وبلاگ‌ها تعیین کرد. [+]
– وبلاگ‌نویسی آسیبی به زبان فارسی وارد نمی‌کند، انتظارات از وبلاگ‌ها منطقی نیست. [+]
– زبان گفتاری وبلاگ‌ها ارتباط بهتری با مخاطب برقرار می‌کند. [+]
– گسترش وبلاگ‌ها موجب نشر و پخش زبان فارسی در فضای سایبر شده است. [+]
– نوشتن در اینترنت نیازمند آداب اینترنتی خاصی است، زبان محاوره در وبلاگ باید وارد زبان نوشتاری شود. [+]
– وبلاگ‌نویسی فرصتی برای گسترش زبان فارسی در محیط مجازی است. [+]
– دستورالعمل وبلاگ‌نویسی و فرهنگ واژه‌های خاصی برای آن تعریف شود. [+]
– سبک جدید نویسندگی درمحیط وب ایجاد شود. [+]
– وبلاگ جایگاه به کارگیری زبان فارسی اصیل نیست. [+]
– گسترش اینترنت زبان فارسی را در فضای مجازی احیا کرده است. [+]
– حفظ و توسعه زبان فارسی از طریق وبلاگ‌ها نیازمند آموزش است. [+]
– ساده و کوتاه نویسی، عامل موفقیت وبلاگ‌نویس‌ها است. [+]

9 دیدگاه دربارهٔ «محتوای پارسی در وب و مترجم آنلاین گوگل;

  1. ۱٫ این خیلی خوبه که بالاخره یکی از موتورهای جستجوی کله‌گنده‌ی دنیا هم ما رو داخل آدم حساب آورده. با این حال حتماً خود تو خیلی خوب می‌دونی که اصلی‌ترین مشکل ترجمه‌گرها، به زبون فارسی برنمی‌گرده. قضیه‌ی روبات‌های مترجم (از هر زبونی به هر زبون دیگه) مدت‌هاست که داره برای دانشمندان علم هوش مصنوعی دردسر درست می‌کنه و هنوز هم که هنوزه خیلی‌ها اعتقاد دارن تا ارائه دادن یه روبات مترجم که عملکرد قابل قبولی داشته باشه، راه طولانی‌ای در پیشه. به هر حال زبان یکی از پیچیده‌ترین ساختارهای اختراع دست بشره که به علت قرن‌ها تغییر و تحول و آمیزش با زبان‌های دیگه، توی اغلب کشورها استانداردهای اولیه‌ش رو از دست داده. البته تمام مقاله‌هایی که من در مورد ترجمه‌ی هوشمند خوندم به چند سال پیش برمی‌گرده. شاید هم توی این مدت تحول بزرگی در این مورد رخ داده که من هنوز ازش بی‌خبرم. اگه کسی در این مورد اطلاعاتی داره، لطفاً من رو بی خبر نذاره. ممنون 🙂
    ۲٫ با این حال اصلاً انکار نمی‌کنم که ترجمه از زبونی مثل عربی یه طرف، ترجمه از زبون فارسی یه طرف. راستش من همین الان به یه مترجم هوشمند آنلاین سر زدم و باید بگم که واقعاً معتقدم باید حالا حالاها انتظاراتمون رو از یه مترجم هوشمند در حد معقولی نگه داریم. خصوصاً مترجمی برای زبان فارسی که الحق و الانصاف زبون سختیه و تا جایی که جا داشته از استثناء و بی‌قاعدگی پر شده. خصوصاً زبون مورد استفاده در وبلاگ‌ها. به عنوان مثال به نمونه‌های زیر توجه کنین. (مترجمی که من بهش سر زدم، توی آدرس http://www.1-800-translate.com جا خوش کرده):
    الف) جمله‌ی “من که حالم خوبه” تبدیل شده به:
    I that status (khvbh)
    ب) جمله‌ی “شما خوبید؟” تبدیل شده به:
    You (khvbyd) ؟
    ج) جمله‌ی “آیا شما خوب هستید؟” تبدیل شده به:
    If you good am ؟
    د) و جمله‌ی “نام من آ است.” تبدیل شده به:
    Name I (aa) is .
    توجه کنین که آخرین جمله دیگه واقعاً رسمی بود و علایم نوشتاری هم داشت! البته فکر می‌کنم مترجم گوگل قاعدتاً باید بهتر از این عمل کنه اما این مترجم هم همچین مترجم بی‌کس و کاری نیست. گمون نمی‌کنم مترجم گوگل هم چندان شسته رفته از آب در بیاد.
    ۳٫ البته فکر نمی‌کنم بازگو کردن این پیشنهاد توی مملکتی که تا گردن تو مشکلات مهم‌تر از این حرف‌ها فرورفته، چندان عاقلانه به نظر بیاد، اما من فکر می‌کنم ما به اندازه‌ی کافی روی وارد کردن زبون فارسی به دنیای مجازی کار نکردیم. زبون‌شناس‌ها و مهندسان کامپیوتر و کارشناسان هوش مصنوعی ما تا حالا چندان همکاری‌ای با هم نداشتن و گام چندان مؤثری در این جهت بر نداشتن. در حالی که در خیلی از کشورهای دنیا بحث دیگه خیلی گسترده تر از یه مترجم معمولیه. الان داره روی روبات‌هایی کار می‌شه که با خوندن روزنامه‌ها و مجلات، تم اصلی نوشته‌ها رو مشخص می‌کنن و باعث می‌شن که خواننده خیلی راحت‌تر بره طرف موضوع مورد علاقه‌ی خودش. یا روبات‌هایی که با خوندن نقد فیلم‌ها و Product review هایی که روی محصولات مختلف نوشته می‌شه، مستقیماً به شخص اعلام می‌کنن که این نقدها مثبت بوده یا منفی. و این طوری خیلی‌ها می‌تونن بدون خوندن این نقدها، اقدام به خرید کنن. حتی توی کشوری مثل چین هم با اون الفبای چندین حرفی و دستور زبان وحشتناکش، قدم‌های بزرگی در این زمینه‌ها برداشته شده.
    ۴٫ به هر حال تا همین جاش هم کلی جای شکر داره. حداقل این طوری می‌تونیم امیدوار باشیم که به عنوان یکی از مخاطبان گوگل مورد توجه قرار گرفتیم. یک سال پیش هم حرف‌هایی بود در زمینه‌ی ساخت یه نرم‌افزار کمک به نابینایان توسط مایکروسافت که به شخص اجازه می‌داد با حرکت دادن ماوس روی صفحه، کلماتی رو که روی مانیتور نقش بسته، از طریق اسپیکر بشنوه (تقریباً یه جور Jaws فارسی) که البته الان یه ساله که هیچ خبری نشده. (نمی‌دونم، شاید هم من بی‌خبرم. اگه کسی چیزی می‌دونه ممنون می‌شم اگه بهم بگه.)
    به هر حال فکر می‌کنم بهتره خودمون هم یه تکونی به خودمون بدیم. زبون خودمون رو که خودمون بهتر از دیگران می‌شناسیم. این طور نیست؟
    نیما: خب دقیقاً من هم خواستم طرح مسأله کنم که همین بحث‌ها پیش بیاد. اما خب متأسفانه وبلاگستان به ایجاد جنجال و بحث‌های بین وبلاگی بی‌حاصل بیش‌تر علاقمنده تا این جور مباحث. دقیقاً این مترجم‌های فعلی وضعیتشون مناسب نیست. من هم فکر می‌کنم این وظیفه با تأمین بودجه‌های پژوهشی در دانشگاه‌ها امکان‌پذیره. هیچ شرکت خصوصی‌ای هم دنبال این کار نمی‌ره چون انتفاعی نداره. مشکل دوم ما اینه که دانشگاه‌های ما هم با شرکت‌های معظمی مثل گوگل ارتباط ندارن. این باعث تأسفه که رابطه سیاسی ما با آمریکا باعث تحریم در موارد علمی هم شده. گرچه دانشگاه‌های ما هم بیش‌تر به فکر شرکت در مسابقات روبوتک و المپیادهای دانشجویی مسابقات پل‌سازی با ماکارونی هستن تا پژوهش‌های این چنین. بی‌خود نیست که ژاپنی‌ها توی علم این قدر پیشرفت کردن. بیش‌ترین هزینه پژوهش در دنیا متعلق به ژاپنه. نوش جونشون.

    پاسخ
  2. به نظر من نیازی به مترجم‌های آنلاین و روبوت‌های خودکار ترجمه‌گر نیست (ساخت این روبات‌ها برای ما هم پرهزینه و هم مشکل است) واقعیت این است که به راحتی یک کپی- پیست می توان محتوای فارسی اینترنت را به روش زیر چند برابر کرد آن موقع است که خواهیم دید مترجم‌های آنلاین بین‌المللی، خود به خود امکان ترجمه آنلاین فارسی به سایر زبان‌ها (و برعکس) را فراهم خواهند کرد و دیگر «جزیره‌ای دورافتاده و ایزوله در میان اینترنت» نخواهیم بود.
    سال‌هاست که از دانشگاه تهران تا شرکت آب و فاضلاب به هزینه دولت (و در واقع با پول مردم) اقدام به چاپ کتاب و نشریه می‌کنند. اگر فقط آرشیو نشریات و کتاب‌هایی که دانشگاه و سایر سازمان‌های دولتی دیگر قصد چاپشان را ندارند روی شبکه قرار بگیرد حجم محتوای ارزشمند فارسی چند برابر خواهد شد. انتشار مقالات پذیرفته‌شده در سمینارها، همایش‌ها و جشنواره‌های برگزار شده توسط سازمان‌های دولتی همین طور، مقالات منتشر شده در نشریات علمی دانشگاه‌ها و موسسات آموزشی و تحقیقاتی دولتی و نیز انتشار اینترنتی کتاب‌هایی که به هر دلیل چاپ کاغذی آنها ممکن یا به صرفه نیست تاثیر فوق‌العاده‌ای بر روی حجم و کیفیت محتوای فارسی اینترنت خواهد گذاشت.

    پاسخ

دیدگاهتان را بنویسید