Clarify Data Sources
یکی از دلایل سرعت و کارایی بالا در Neshoonak.WebScraper آن است که منتظر لود شدن تمام اجزای صفحه وب و اجرای Javascript نمی شود و به محض لود شدن صفحه اصلی عملیات استخراج آغاز می گردد. به همین دلیل هنگام ساخت الگوی استخراج، اطلاعات مورد نظرتان را در سایتهایی که نیاز به اجرای جاوا اسکریپت دارند مشاهده نمی کنید
در این نوع سایت ها، سوپروایزر استخراج اطلاعات، باید با استفاده از ابزار Developer Tools موجود در مرورگر، از محل دقیق اطلاعات مطلع گردد. در نشونک نیز ابزاری جهت تحلیل فایل خروجی Developer Tools موسوم به HAR Analyzer طراحی شده است که می تواند در ایجاد الگوی استخراج کمک نماید.
در ادامه وب سایت goldprice.org را جهت یافتن آدرس صفحه وب، حاوی قیمت طلا بررسی می کنیم
1 - نحوه نمایش در مرورگر کروم
تصویر زیر نحوه نمایش وب سایت goldprice.org را در مرورگر کروم نشان می دهد

2 - نحوه نمایش در وب سایت نشونک
در نشونک می توانید با وارد کردن آدرس وب سایت مورد نظر آن را مشاهده کرده و قواعد استخراج را برای آن تعریف کنید. تصویر زیر نحوه نمایش وب سایت goldprice.org را پس از حذف اسکریپت ها، در نشونک نشان می دهد

همانطور که مشاهده می شود، اطلاعات اصلی در نشونک نشان داده نشده است. بدین معنی که پس از لود صفحه وب اطلاعات قیمت با اجرای جاوا اسکریپت، از سرور واکشی شده و صفحه وب بروز می گردد
3 - ساخت فایل لاگ مرورگر
مرورگر کروم، کلیه عملیات ارسال request برای وب سرور و دریافت پاسخ از آن را لاگ می کند. این فایل لاگ دارای پسوند har (مخفف HTTP Archive) می باشد و از طریق ابزار Developer Tools ایجاد می گردد. بدین منظور از منوی مرورگر کروم گزینه Developer Tools (کلید F12) را انتخاب کنید سپس وارد سایت goldprice.org شوید. برگه Network حاوی لاگ کلیه درخواستهای ارسال شده از صفحه وب مورد بحث می باشد

با کمی جستجو در این لاگ می توانید request که برای دریافت قیمت به سرور ارسال شده است را بیابید در غیر این صورت می توانید از ابزار HAR Analyzer موجود در نشونک استفاده نمایید ابتدا با کلیک راست روی لیست درخواست ها گزینه Save as HAR with content را اتتخاب نمایید
4 - تحلیل فایل HAR
در وب سایت نشونک از منوی more گزینه HAR Analyzer را انتخاب و در برگه باز شده، گزینه upload را جهت ارسال لاگ مرحله قبل، به نشونک انتخاب نمایید. نشونک پس از تحلیل اولیه لاگ و حذف request های نامرتبط، امکان جستجو در لیست کوکی ها، آدرس header و متن response را فراهم می کند.

بعد از یافتن request که حاوی اطلاعات مورد نظر شماست، می توانید به راحتی با انتخاب گزینه سبز رنگ Create Page Pattern، الگوی مرتبط را ایجاد نمایید