معرفي

مهدي طالبيان فارغ التحصیل رشته مهندسی نرم افزار هستم. در سال 86 هنگام تهيه پروژه كارشناسي ارشد با عنوان "بازيابي اطلاعات براي وب معنايي" با مفهوم و انواع روش هاي بازيابي و استخراج اطلاعات از صفحات وب آشنا شدم. سه سال بعد تصميم گرفتم نرم افزاري تجاري جهت استخراج اطلاعات تهيه كنم. براي تجاري كردن فرايند استخراج، از روش مبتني بر الگوي هاي از پيش تعريف شده استفاده نمودم و براي كاهش وابستگي آن به ساختار صفحات وب، مكانيزمي جهت واكشي اطلاعات طراحي نمودم.
در ابتدا قصد داشتم نرم افزاري تهيه كنم كه كاربر بتواند با آن الگوي داده هاي موجود در صفحات را براحتي تعريف نموده و با فشردن يك دكمه عمليات استخراج انجام شود. ولي بعد از تهيه اين نرم افزار كه مشابه خارجي هم داشت، اين سوال مطرح شد: چرا براي استخراج اطلاعات از يك سايت، هر كاربر بايد بصورت جداگانه الگوي خودش را تعريف كند؟ چرا الگوها را به اشتراك نگذاريم؟ آيا بهتر نيست كاربر فقط موضوع استخراج و برخي محدوديت ها را تعيين نمايد و الگوي استخراج توسط يك كارشناس خبره تهيه شده و توسط همان فرد، مديريت و پشتيباني گردد تا همواره Live باشد؟
به اين ترتيب ايده ارائه سرويس هاي استخراج مطرح شد (هر سرويس شامل الگوي استخراج به همراه ساير اطلاعات تكميلي جهت فيلترينگ و ... مي باشد). البته در ايران هم كارهاي متفاوتي در زمينه استخراج اطلاعات انجام شده كه برخي از آنها عبارتند از: سايت خبر فارسي، خبرپو، تي نيوز و ... ولي استخراج اطلاعات بصورت سرويس، ايده جديدي است كه به توسعه دهندگان اين امكان را مي دهد كه نرم افزارهايي مشابه سايت هاي فوق الذكر تهيه نمايند.
نشونك در ابتداي راه است و براي موفقيت نيازمند نظرات و راهنمايي هاي شما دوستان مي باشد.
ارسال نظر