Page Pattern

الگوی های استخراج، شامل قواعد استخراج اطلاعات از صفحات وب بوده و با ابزار تحت وب نشونک، ایجاد می گردند. این الگو ها در فضای ذخیره سازی نشونک، جهت استفاده در برنامه Neshoonak.WebScraper ذخیره و نگهداری می گردند.

در این صفحه خواهید خواند:



ساختار سلسله مراتبی الگوی استخراج

برای تعریف الگوی استخراج وارد صفحه Pattern Designer شده و یک پروژه استخراج جدید ایجاد نمایید. کادر سمت راست، ساختار سلسله مراتبی اجزای پروژه را نشان می دهد. در این درختواره می توانید الگوهای مورد نظرتان را در زیر گره Patterns ایجاد نموده و یا با ایجاد فولدر های مناسب، آنها را از نظر منطقی دسته بندی نمایید.


پروژه استخراج Game-Consoles

همانطور که در تصویر فوق مشاهده می شود، در پروژه استخراج Game-Consoles الگوهای استخراج به سه گروه CNET, CURRYS, ENGADGET تقسیم شده اند که در گروه CNET سه الگوی استخراج به نامهای cnet, cnet-product, cnet-specs ایجاد شده اند. در الگوی cnet-product، جهت استخراج اطلاعات 2 لیست به نامهای Consoles و ConsoleImages تعریف شده است


ایجاد الگوی استخراج

برای ایجاد الگوی استخراج، گزینه New Pattern را انتخاب کنید و در فرم مرتبط نام الگو و آدرس صفحه وب مورد نظر را وارد نمایید. سیستم ضمن ایجاد یک الگو و نمایش آن در Explorer، فرم Designer را برای تعریف الگوی استخراج از آدرس اعلام شده باز می کند. در این فرم صفحه وب مورد نظر بدون امکان اجرای جاوا اسکریپت جهت تعریف قواعد استخراج به کاربر نمایش داده می شود.


New Page-Pattern


Pattern Designer


- تنظیم صفحه آغازین

در برگه پراپرتی های الگوی استخراج، گزینه Startup، مشخص می کند که آیا موتور استخراج نشونک می تواند عملیات استخراج را از آن الگو شروع کند یا خیر. برای تشخیص راحت تر، الگو های startup همواره بصورت پررنگ در explorer نمایش داده می شوند. موتور استخراج نشونک، برای شروع کار، علاوه بر الگو به آدرس صفحه وب نیز نیاز دارد. بدین منظور در پراپرتی های الگو به محتوای Startup Urls رجوع می کند. اگر این فیلد خالی بود با آدرس تعریف شده در الگوی استخراج آغاز می کند.

جهت تسهیل در معرفی آدرس های آغازین (Startup Urls) قواعد نشانه گذاری ساده ای تعریف شده است. برای اطلاعات بیشتر به نشانه گذاری در Startup Urls رجوع نمایید.


برخی سایت ها بخش هایی از اطلاعات کاربران را در کوکی ها نگهداری می کنند. در حالت عادی نشونک هنگام ارسال و یا دریافت reuqest ها اطلاعات کوکی ها را ذخیره نمی کند. شما می توانید در مواردی که لازم است با تنظیم فیلد Cookie Container در لیست پراپرتی های الگوی استخراج، تعیین نمایید که در فرایند ارسال و دریافت request ها به وب سرور، از کوکی ها استفاده گردد.


- ذخیره صفحه وب در کامپیوتر کاربر

در صورت نیاز می توانید صفحه وب به همراه متعلقات آن، شامل فایل های CSS و Javascript برروی کامپیوتر کاربر ذخیره نمایید. محل ذخیره سازی باید در لیست پارامترهای پروژه، توسط کاربر نهایی مشخص گردد.

بدین منظور در Project Properties پارامتری از نوع TEXT جهت ثبت مسیر ذخیره سازی صفحه وب ایجاد نمایید. سپس نام این پارامتر را در لیست پراپرتی های الگوی استخراج در فیلد Destination folder وارد نمایید.


- تنظیمات پیشرفته آدرس صفحه وب

بصورت پیش فض آدرس های صفحات وب با متد GET از وب سرور های فراخوانی می گردد می توان با انتخاب گزینه Advanced request properties از سمت چپ نوار آدرس، کنترل های بیشتری هنگام ارسال request به وب سرور داشته باشید

امکاناتی که این فرم در اختیار شما قرار می دهد:

  • نمایش و ویرایش ساده تر Query String ها
  • امکان تنظیم متد ارسال درخواست GET / POST
  • امکان تنظیم هدر درخواست ها
  • امکان تنظیم متن POST
  • امکان مشاهده متن و اجزای هدر response

دسترسی به المان های صفحه وب

جهت تهیه قواعد استخراج باید ابتدا بتوانید به المان های درون صفحات وب دسترسی داشته باشید. بدین منظور باید با ساختار درختی HTML آشنا باشید و بتوانید در میان المانهای صفحه وب، جستجو کرده و متن مورد نظرتان را بیابید. و در صورت نیاز آن را پردازش کرده تا مقدار مطلوب واکشی گردد. بدین منظور نشونک Selector و Modifier و Expression ها را معرفی نموده است.

Selector

سلکتورها دسترسی به المان های درون صفحات وب را جهت جستجو ویا خواندن TEXT یا URL یا HTML آن المان فراهم می کند. سلکتورهای نشونک، زیر مجموعه ای از کاربردی ترین سلکتورهای jquery و css می باشند که البته جهت افزایش خوانایی تا حدی تغییراتی در syntax آن داده شده است. قبل از مطالعه سلکتورهای نشونک می توانید لینک ذیر را مطالعه فرمایید.


Modifier

گاهی اوقالت دسترسی به متن یا آدرس المانهای موجود در صفحات وب کفایت نمی کند و باید پردازش و اصلاحیه ای برروی آن ها صورت پذیرد. به عنوان مثال متن موجود در صفحه وب "450 میلیون تومان" باید پردازش شده و مقدار 450000000 واکشی گردد. این پردازش های ابتدایی برروی متون استخراج شده از سلکتورها توسط امکانی بنام Modifier در نشونک قابل انجام است.


Expression

گاهی اوقات، دسترسی به اطلاعات حین پردازش مورد نیاز است، به عنوان مثال تاریخ و ساعت پردازش، آدرس صفحه وب و شماره ردیف جدول درحال استخراج و ... این اطلاعات از طریق قابلیتی بنام Expression ها قابل تامین می باشد. Expression ها بخشی از سلکتور ها می باشند و همواره با کاراکتر مساوی شروع می شوند. به عنوان مثال، عبارت ذیر در متن سلکتور، تاریخ شمسی روز جاری را برمی گرداند

= @Shamsi

برای اطلاعات بیشتر به معرفی Expression ها در نشونک مراجعه فرمایید


قواعد استخراج - لیست ها

لیست ها ابزار بسیار قدرتمندی جهت جستجو در بخش های مختلف صفحه وب و استخراج اطلاعات از آن می باشند. لیست ها را در موارد زیر می توانید استفاده نمایید:

  • استخراج اطلاعات از صفحات وب
  • لینک به سایر الگوی های استخراج
  • دانلود محتویات یک لینک و ذخیره برروی کامپیوتر کاربر

برای اطلاعات بیشتر به صفحه لیست ها مراجعه نمایید


قواعد استخراج - Page Script

در مواردی که خروجی صفحه وب پیچیده می باشد و با استفاده از لیست نتوان اطلاعات مورد نظر را از آن استخراج نمود، می توان با نوشتن اسکریپت اطلاعات مورد نظر را استخراج نمود.

برای اطلاعات بیشتر به صفحه Page Script مراجعه نمایید



  Loading...