سفارش تبلیغ
صبا ویژن
از دست دادن فرصت اندوهى گلوگیر است . [نهج البلاغه]

درباره موتور جستجوی پارسی‌جو

این سامانه با تلاشهای بی‌وقفه تیم 40 نفره شرکت پارسی‌جو در مرکز تحقیقات مهندسی دانشگاه یزد با حمایت پژوهشگاه ارتباطلات و فناوری اطلاعات پیاده سازی شده و با صرف حداقل هزینه و تجهیزات به رشد و توسعه خود ادامه می‌دهد. در حال حاضر موتور پارسی‌جو بر روی یک بستر توزیع شده شامل 30 سیستم اجرا می‌شود و تاکنون در حدود 200 میلیون صفحه فارسی (از 500 میلیون سند) را نمایه‌سازی نموده است. همچنین این سامانه مجهز به پردازشگر و خطایاب هوشمند فارسی می‌باشد.

 

 

تاریخچه موتورجستجوی پارسی‌جو

 

فاز تحقیقاتی پروژه در شهریور 1387 شروع شده و طراحی و پیاده سازی پارسیجو در مهر 1388 آغاز گردید و نسخه 1 در 28 اردیبهشت 1389 با پوشش یک میلیون صفحه روی وب قرار گرفت. هم اکنون نسخه 3 پارسی جو با پوشش دویست میلیون صفحه روی وب قرار دارد.


معماری پارسی‌جو

پارسی‌جو موتور جستجویی مستقل و بومی است که شامل سه بخش اصلی می‌باشد.

الف) خزشگر (crawler) :
خزشگر پارسی‌جو که Parsijoo نام دارد به صورت هوشمند وب را پیمایش نموده و صفحات را جمع آوری میکند. در حال حاضر خزشگر پارسی‌جو، قادر به خزش دویست میلیون صفحه وب به صورت متوالی میباشد. نسخه جدید آن که بزودی بر روی وب قرار میگیرد قادر است بیش از یک میلیارد صفحه وب را جمعآوری کند. در این بخش اسناد وب فارسی با یک سیاست مناسب بر مبنای پوشش و تازگی از وب جمع‌آوری می‌شو‌ند. یکی از مباحث مهم این بخش کشف صفحات مهم فارسی می‌شود که این عمل با استفاده از الگوریتم جدید هوشمند به نام ایساتیس انجام می‌گیرد. روش ایساتیس که توسط طراحان پارسی جو ارائه شده است صفحات مهم فارسی را کشف کرده و سپس بارگذاری می‌کند. همچنین این الگوریتم قادر به تشخیص صفحات فرب آمیز (اسپم) میباشد.

ب) نمایه ساز:
در این بخش متن خالص از اسناد فارسی (مانند HTML، DOC و PDF) بارگذاری شده، توسط خزشگر استخراج شده و با توجه به خصوصیات زبان فارسی نرمال سازی شده و سپس عمل نمایه سازی انجام می‌گیرد. در این بخش از یک پردازشگر فارسی برای پردازش کلمات و عبارات فارسی استفاده میشود که این پردازشگر قادر است عملیات فاصله گذاری و یکسان سازی کدینگ‌های استفاده شده را انجام دهد. همچنین تصاویر و بقیه اسناد در این بخش پردازش میشوند. کل این مجموعه عملیات بر روی یک بستر توزیع شده اجرا میگردد.

ج) بخش بازیابی و جستجو:
این بخش که به صورت برخط عمل می کند و با کاربر در ارتباط است، در ابتدا پرس‌جو را از کاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمایه‌ساز بازیابی می‌کند. در نهایت اسناد با استفاده از روش‌های هوشمند رتبه بندی جدید که به صفحات فریب آمیز (اسپم) حساسیت پایینی دارند، رتبهبندی گردیده و به کاربر ارائه می شوند. الگوریتم رتبه بندی ارائه شده بیش از 50 ویژگی سایت های فارسی را با هم به صورت هوشمند ترکیب میکند تا نتایج ارائه شده مورد رضایت کاربران باشد. این الگوریتم نوین توسط تیم پارسی‌جو طراحی و ارائه شده است. همچنین پردازشگر پرس‌وجوی این بخش قادر است عملیات یکسان سازی کدینگ‌ها، ریخت شناسی صرفی و خطایابی را انجام دهد.


خدمات پارسی جو

1) وب:
این خدمت در بین 200 میلیون صفحه فارسی جستجو میکند. با توجه به اینکه صفحات وب از طریق گذرگاه رسمی شبکه کشور دریافت شده‌اند، دارای محتویات امن و مطمئن می‌باشند. بزودی، نسخه جدیدی از پارسی‌جو به بهره‌برداری می‌رسد که امکان جستجو در بیش از 500 میلیون صفحه وب فارسی و در زمانی بسیار کوتاهتر را فراهم می‌سازد و در ضمن، کیفیت صفحات انتخابی نیز از نظر ارزش اطلاعاتی و رتبه‌بندی بهبود قابل توجهی یافته است.

2) تصویر:
این خدمت در بین میلیون ها تصویر جستجو میکند. این تصاویر عمدتاً از صفحات وب فارسی استخراج شده‌اند و همانند جستجوی وب، سرویس جستجوی تصویر نیز تا حد امکان دارای محتویات امن و مطمئن می‌باشد. بزودی، پارسی‌جو قادر به جستجو در بیش از یکصد میلیون عکس موجود در وب خواهد بود.

3) خبر:
این سرویس به صورت هوشمند بیش از پنجاه سایت خبرگزاری را دسته‌بندی کرده و در اختیار کاربران قرار میدهد.

4) ترجمه ماشینی:
این سرویس قابلیت ترجمه دو زبانه متن از فارسی به انگلیسی، انگلیسی به فارسی و پینگلیش به فارسی به همراه فرهنگ لغت انگلیسی به فارسی را دارا می‌باشد . نسخه آزمایشی این سرویس به صورت روزانه در حال بهبود و بروزرسانی می‌باشد. خدمت ترجمه مبتنی بر روش ترجمه ماشینی هوشمند آماری عمل کرده و از ترجمه ماشینی ترگمان که توسط دانشگاه صنعتی امیرکبیر پیاد‌سازی شده است، استفاده میکند.

5) آوا:
سرویس آوا با امکان جستجو،دانلود و پخش صوت و موسیقی در حجم انبوهی از فایلهای صوتی موجود در سطح وب فارسی را در اختیار کاربران قرار میدهد.

6) علمی:
این خدمت در بین یک میلیون مقاله انگلیسی و فارسی جستجو میکند. بزودی تعداد مقالات تحت پوشش چند برابر خواهد شد.

گفتنی است نسخه موبایل پارسی‌جو نیز به بهره‌برداری رسیده است و تمام سرویسهای فوق به راحتی با استفاده از گوشی‌های هوشمند تلفن همراه در دسترس می‌باشند.

تیم پارسی‌جو به صورت شبانه‌روزی در حال تحقیق و فعالیت برای بهبود و ارتقاء این موتور جستجو می‌باشد و در آینده‌ای نزدیک شاهد بهره‌برداری از سرویسهای جدیدی خواهیم بود.