Introduction

نشونک بصورت تخصصی برروی مبحث استخراج نیمه اتوماتیک اطلاعات از صفحات وب فعالیت دارد. با استفاده از این خدمات، نشونک می تواند به شما در جمع آوری اطلاعات مرتبط کمک کند تا تجزیه و تحلیل، مقایسه و یا توسعه یک کسب و کار جدید بر اساس داده های استخراج شده، امکان پذیر گردد.

در راهکار ارائه شده توسط نشونک، استخراج اطلاعات براساس الگوهای از پیش تعریف شده ای صورت می گیرد که در بانک اطلاعاتی نشونک ذخیره شده اند. این الگوها، نقشه استخراج اطلاعات از سایت و نیز قواعد استخراج را مشخص می کنند.

محیط تعریف الگوی استخراج

این الگوها به دو طریق قابل استفاده می باشند. از یک طرف وب سرویس استخراج اطلاعات ارائه شده در وب سایت نشونک می تواند این الگو ها را بازیابی نموده و برروی یک صفحه وب (بصورت تک مرحله ای) اجرا نماید.

از طرف دیگر ابزاری تحت ویندوز بنام Neshoonak Web Scraper قادر است این الگوها را بازیابی و اجرا نماید. نتیجه اجرای الگوها بر روی صفحات وب، یک فایل اکسل از اطلاعات استخراج شده می باشد.

برنامه تحت ویندوز Neshoonak.WebScraper

بدین ترتیب برای استخراج اطلاعات از صفحات وب باید گامهای ذیل طی شود:

گام اول: شناسایی منبع داده

یکی از دلایل سرعت و کارایی بالا در نشونک، آن است که منتظر لود شدن تمام اجزای صفحه وب و اجرای Javascript نمی شود و به محض لود شدن صفحه اصلی عملیات استخراج آغاز می گردد. از این رو در وب سایت هایی که از Javascript استفاده می کنند باید به کمک ایزار Developer Tools و نیز ابزار HAR Analyzer موجود در محیط طراحی الگوهای نشونک، آدرس وب مورد نظر را جستجو نمود.

برای اطلاعات بیشتر به راهنمای شناسایی منبع داده مراجعه نمایید

گام دوم: طراحی الگوی استخراج اطلاعات

الگوی استخراج توسط ابزار Pattern Designer، توسط سوپروایزر استخراج اطلاعات، تولید می شود و در فضای ذخیره سازی نشونک ذخیره و نگهداری می گردد. الگوها نقشه استخراج اطلاعات و قواعد استخراج را مشخص می کنند. قواعد استخراج، به کمک امکانات موجود در نشونک، نظیر selector و modifier و expression ها می توانند به راحتی به المان های موجود در صفحات وب دسترسی داشته و اطلاعات مورد نظر واکشی گردد.

برای اطلاعات بیشتر به راهنمای الگوی استخراج مراجعه نمایید

گام سوم: استخراج اطلاعات

در نهایت با توجه به نیاز کاربر، استخراج اطلاعات به دو روش امکان پذیر می باشد:

  • استخراج اطلاعات از طریق فراخوانی وب سرویس نشونک - در این روش با اعلام ادرس صفحه وب و نام الگوی استخراج، اطلاعات موجود در آن صفحه وب، واکشی شده و به مشتری ارسال می گردد. این روش برای استفاده مستقیم داده های واکشی شده، در برنامه کاربردی مورد استفاده قرار می گیرد
  • در روش دوم، کاربر نهایی با استفاده از ابزار تحت ویندوز Neshoonak.WebScraper پروژه استخراج مورد نظر را انتخاب کرده و آن را اجرا می کند. این روش برای استخراج انبوه و ذخیره سازی آن بر روی کامپیوتر کاربر استفاده می شود

برای اطلاعات بیشتر به راهنمای استخراج اطلاعات مراجعه نمایید



  Loading...