پردازش بعد از استخراج

 

پس از استخراج اطلاعات، گام های زیر را جهت آماده سازی و استفاده از اطلاعات طی نمایید:

 

قدم اول: پاکسازی و یکسان سازی

همواره بخاطر داشته باشید که داده ها از منابع (وب سایت ها) مختلف جمع آوری می شوند و احتمال آن وجود دارد که در قالب های متفاوتی نمایش داده شوند. لذا قبل از هر چیزی باید داده ها پاکسازی شده و یکنواخت گردند:

  • حذف اطلاعات تکراری
    بدلایل مختلف ممکن است، اطلاعات استخراج شده تکراری باشند، لذا باید اطلاعات تکراری را کشف و حذف نمایید
  • حذف اطلاعات ناقص
    بسته به کاربرد شما از اطلاعات ممکن است برخی رکورد های اطلاعاتی منطقا ناقص باشند (به عنوان مثال محصولات فاقد قیمت). این گونه از اطلاعات نیز باید شناسایی  و حذف گردند.
  • تبدیل محتوی و نوع فیلد های اطلاعاتی
    ممکن است بخواهید برخی از فیلد های اطلاعاتی را به قالب مورد پسند خود تبدیل نمایید. به عنوان مثال ترجیح می دهید محتوای فیلد تاریخ شمسی را به فرمت میلادی در بانک اطلاعاتی خود ذخیره نمایید و یا محتوای فیلد کد خبر را به نوع داده عددی در بانک اطلاعاتی خود ذخیره نمایید.
  • یکسان سازی و نگاشت داده ها
    سرویس های استخراج ما تا آنجا که ممکن است داده های بدست آمده از منابع مختلف را  یکسان می نمایند (به عنوان تبدیل تاریخ ها به فرمت شمسی). اما حسب نیاز ممکن است لازم باشد برخی فیلد های اطلاعاتی  مجددا پردازش شده و به یک فرمت واحد نمایش داده شوند. به عنوان مثال نام گوشی IPhone 5 ممکن است در سایت های مختلف به شکل های مختلف نمایش داده شود مثل: آیفون 5،  IPhone 5، Apple - IPhone5 و ...

 

بخش زیادی از عملیات فوق را می توانید با تهیه یک برنامه ساده بصورت اتوماتیک در آورید. با این حال اگر مشکلی در این بخش داشتید می توانید با ما تماس بگیرید و از پیشنهادات ما نیز استفاده نمایید.

 

 

قدم دوم: پردازش اطلاعات

با توجه به نوع استفاده شما از اطلاعات استخراج شده، لازم خواهد بود تا بخشی از داده های پاکسازی شده به محیط عملیاتی منتقل گردند تا پردازش های بیشتری بر روی آنها انجام پذیرد. با توجه به تنوع موارد استفاده، ذیلا تنها ذکر عنوان برخی از این موارد کاربرد اکتفا می کنیم:

  • موتور جستجوی هدفمند
  • تجزیه و تحلیل اطلاعات و پیش بینی وضعیت آینده بازار
  • پیاده سازی سرویس های خبری شخصی
  • یکپارچه سازی کاتالوگ، بررسي هاي تخصصي و نظرات استفاده کنندگان كالا و خدمات
  • جمع آوري تاريخچه تغييرات آب و هوا
  • جمع آوري و تحلیل اطلاعات آماري مانند زلزله نگاري و ...
  • جمع آوري و نگهداری سوابق اطلاعات آماري تيم هاي ورزشي
  • جمع آوري و اطلاع رسانی اطلاعات تخفيف هاي ارائه شده توسط ساير وب سايت ها
  • جمع آوري و یکپارچه سازی اطلاعات مربوط به برگزاري كنفرانس ها
  • جمع آوری سوابق تغییر قیمت محصولات در بازار
  • ساخت وب سايتهاي جمع آوري وقايع و رويدادها (مانند رويدادهاي ورزشي، نشت هاي سياسي مهم، كنفرانس ها، كنسرت ها و ...)
  • جمع آوري و اطلاع رسانی ليست كتابها، انتشارات و ISBN و ....
  • جمع آوري و اطلاع رسانی ليست بازي هاي کامپیوتری موجود و در حال توليد، امتياز، زمان عرضه، نيازمندي هاي سخت افزاري و ...
  • جمع آوري و اطلاع رسانی ليست هتل ها و هزينه هاي اقامت آنها
  • جمع آوري و اطلاع رسانی ليست دارو ها و اطلاعات تخصصي آنها

 

همچنین این اطلاعات می توانند در ایجاد پایگاه دانش مورد استفاده در وب معنایی بکار رود.

لطفا با ما تماس بگیرید و تجارب موفق خود را در میان بگذارید.

 

قدم سوم: نمایش اطلاعات

پس از پردازش اطلاعات احتمالا می خواهید از آن ها در تحقیق یک پایان نامه استفاده نمایید و یا بصورت یک فایل Word، Powerpoint، Excel و ... آن را به اشتراک بگذارید و یا شاید هم قصد دارید یک وب سایت درست کرده و ضمن رعایت حقوق مولف، از طریق آن یک کسب و کار راه اندازی نمایید. در هر صورت این با شماست که تصمیم بگیرید چگونه اطلاعات پردازش شده را به نمایش بگذارید. البته می توانید با ما تماس بگیرید و از پیشنهادات ما نیز استفاده نمایید.

 

آیا شما ایده های دیگری دارید؟ لطفا با نظرات خود ما را در تکمیل این نوشته راهنمایی کنید.

 

  Loading...