Neshoonak Web Scraper

نرم افزار تحت ویندوز Neshoonak.WebScraper.exe، جهت استخراج اطلاعات از صفحات وب و ذخيره آن بر روي كامپيوتر کاربر استفاده می گردد. قبل از استفاده از این نرم افزار باید پروژه استخراج توسط ابزار Pattern Designer ایجاد شده باشد. این نرم افزار از صفحه دانلود قابل دریافت می باشد. در ادامه مطالب زیر را خواهید خواند:


ورود به سيستم

جهت ورود به این سيستم بايد از نام كاربري (ايميل) و رمز عبور وب سايت نشونك استفاده نمود. دسترسی های کاربر براساس حساب کاربری نشونک کنترل می گردد.


تنظیمات برنامه

در این فرم می توانید تعیین نمایید که هنگام ارسال درخواستها به وب سرور، درصورتیکه در هدر درخواست فیلد user agent مشخص نشده باشد، مقدار جایگزین آن ارسال گردد. همچنین باتوجه به پشتیبانی کامل نشونک از Caching، می توانید محل ذخیره داده های cache شده را مشخص نمایید.


فرم تنظیمات برنامه WebScraper


انتخاب الگوی استخراج

الگو های استخراج با استفاده از ابزار Pattern Designer ایجاد می شوند. این الگو ها شامل کلیه قواعد و دستورات مرتبط با استخراج اطلاعات می باشد. ممکن است برخی از الگوهای استخراج موجود توسط سایر کاربران به اشتراک گذاشته شده باشند. الگوهای استخراج اشتراکی پررنگ تر از سایر الگو ها نمایش داده می شوند. عملیات استخراج با انتخاب یک الگوی استخراج شروع می شود.


فرم انتخاب الگوی استخراج

بعد از انتخاب الگوی استخراج، برخی اطلاعات آماری شامل تعداد صفحات وب در صف استخراج، زمان سپری شده و زمان تقریبی پایان استخراج، تعداد صفحات استخراج شده، تعداد صفحات مجاز برای استخراج اطلاعات و زمان انقضای حق اشتراک شما در وب سایت نشونک، نمایش داده می شود (تصویر زیر)


برنامه Neshoonak WebScraper


اجرای عملیات استخراج

برای اجرای عملیات استخراج گزینه Restart را انتخاب نمایید. در صورتیکه در پروژه استخراج پراپرتی ها تنظیم شده باشند، سیستم با نمایش فرم پراپرتی های پروژه استخراج از شما می خواهد تا مقادیر مرتبط با هرکدام را وارد نمایید. همچنین می توانید در این فرم مشخص نمایید سیستم از چند thread جهت اجرا بصورت موازی استفاده نماید.


پراپرتی های پروژه استخراج

در فرایند اجرای استخراج، موتور استخراج نشونک ابتدا الگوهای startup را جستجو می کند. در این الگوها، صفحات وب مرتبط در خصیصه Startup Urls مشخص شده است. در غیر این صورت سیستم از همان صفحه وب که در هنگام طراحی معرفی شده است، به عنوان صفحه وب آغازین استفاده می کند هر صفحه وب در یک tread جداگانه اجرا می شود. بدین ترتیب موتور استخراج نشونک با پشتیبانی از سیستم multi-threading امکان اجرای موازی استخراج اطلاعات را فراهم می کند.

جهت پردازش هر صفحه وب، بعد از دانلود محتوای صفحه، بلافاصله ابتدا list های تعریف شده در الگوی استخراج واکشی می گردند و بعد Page Script ها در صورت وجود، اجرا می گردند. کاربر هرگاه لازم باشد می تواند با انتخاب گزینه pause عملیات استخراج را موقتا متوقف نماید. از آنجا که سیستم آخرین وضعیت پردازش اطلاعات را نگهداری می کند، کاربر می تواند حتی در اجرا های بعدی WebScraper عملیات استخراج را با انتخاب continue ادامه دهد.

بعد از توقف عملیات استخراج، داده های واکشی شده در جداول مختلف نشان داده می شود. با انتخاب گزینه Send to Excel می توانید این اطلاعات را به برنامه Excel منتقل نمایید.



  Loading...