دانلود مقاله آناتومی یک موتور جستجو وب فوق متنی در مقیاس وسیع

Word 118 KB 17450 39
مشخص نشده مشخص نشده کامپیوتر - IT

قیمت قدیم:۲۴,۰۰۰ تومان

قیمت: ۱۹,۸۰۰ تومان

دانلود فایل

بخشی از محتوا
وضعیت فهرست و منابع

در این بخش، به گوگل خواهم پرداخت، یک نمونه اصلی از یک موتور جستجوی در مقیاس وسیع که استفاده وسیعی از ساختار اراده شده در فوق متنی می کند.

گوگل برای جستجو و یافتن (Crawl) و شاخص بندی وب به طور مؤثر و تولید نتایج هرچه رضایت بخش تر نسبت به سیستم های موجود طراحی شده است.

این نمونه اصلی با پایگاه داده ای متشکل متن و فوق پیوند کامل 24 میلیون صفحه در http://google.standard.edi/ موجود می باشد.

مهندسی یک موتور جستجو یک وظیفه چالش آور است.

موتورهای جستجو دهها تا صدها میلیون صفحه وب متشکل از تعداد قابل ملاحظه ای موضوعهای متفاوت را شاخص بندی می کنند و پاسخ گوی دهها میلیون پرس و جو به صورت روزانه هستند.

بر خلاف اهمیت بالای موتورهای جستجوی برروی وب تحقیقات آکادمیک بسیار اندکی برروی آنها صورت گرفته است (در کشور عزیز ما دقیقاً هیچ مطالعه و تحقیقی صورت نگرفته است).

علاوه بر این به دلیل سرعت پیشرفت تکنولوژی وب، امروزه ساخت یک موتور جستجو مسبت به سه سال پیش بسیار متفاوت است.

این بخش به بررسی و توصیف عمقی این موتور جستجوی وب در مقیاس وسیع می پردازد.

جدای از مشکلات تغییر مقیاس تکنیکهای جستجوی قدیمی داده با این وسعت، چالشهای تکنیکی جدیدی در زمینه استفاده از اطلاعات اضافی ارائه شده در فوق متن برای تولید نتایج جستجوی بوجود آمده است.

این بخش به این که چگونه می توان یک سیستم در مقیاس وسیع عملی که بتواند اطلاعات اضافی ارائه شده در فقو متن را استخراج کند را تولید کرد، پاسخ خواهد گفت.

همچنین ما به این مشکل که چگونه می توان با مجموعه های فوق متن کنترل نشده (هر کسی می تواند هر چه خواست بنیسد) کنار آمد، نیز دقت خواهیم کرد.
1.

معرفی
وب چالشهای جدیدی برای بازیابی اطلاعات ایجاد می کند.

حجم اطلاعات موجود برروی وب به سرعت در حال افزایش است و به همان نسبت تعداد کاربران جدید که در جستجوی وب بی تجربه هستند افزایش می یابد.

مردمی که احتمالاً وب را از طریق گراف پیوند آن مرور می کنند، اغلب کار خود را با شاخصهای ذخیره شده با کیفیت بالای انسانی مانند یاهو!

یا موتورهای جستجو شروع می کنند.

لیتهاس ذخیره و نگهداری شده توسط انسانی موضوعهای معروف را به طور موثری پوشش می دهند اما شخصی بودن، گران و پرهزینه بودن برای ساخت و نگهداری، کندی در پیشرفت و ناتوانی در پوشش موضوعهای مبهم و پیچیده از عیبتهای عمده آنها محسوب می شود.

موتورهای جستجو بر پایه هم خوانی کلمات کلیدی معمولاً نتیج را با کیفیت بسیار پایین برمی گرداند.

برای بهتر شدن شرایط، بعضی شرکتهای تبلیغاتای تلاش وسیعی برای بدست آوردن نظر مردم از طریق گمراه کردن موتورهای جستجوی اتوماتیک می کنند.

اقایان سرگی برین و لاورنس پیج موتور جستجوی در مقیاس وسیعی ساخته اند که به تعداد زیادی از مشکلات سیستم های موجود پرداخته است.

و آن استفاده وسیعی از این ساختمام ارائه شده در فوق متن می کند به منظور فراهم کردن نتایج جستجوی با کیفیت بالاتر، اسیم این سیستم، گوگل، انتخاب شده است.

زیرا گوگل تلفظ معمول googol یا 10100 است و بسیار مناسب هدف ما برای ساختن یک موتور جستجوی بسیار در مقیاس وسیع است.
1.1 موتورهای جستجوی وب – گسترش یافتن: 1994-2001
تکنولوژی موتورهای جستجو باید به میزان زیادی تغییر پیدا می کرد تا بتواند هماهنگی خود را با گسترش وب حفظ کند.

در 1994، یکی از اولین موتورهای جستجوی وب یعمی کرم وب گستره جهانی (WWWW) شاخصی از
000/110 صفحه وب و اسناد در دسترس وب داشت.

از نوامبر 1998 موتورهای جستجوی برتر ادعای شاخص بندی از 2 میلیون (WebCrawler) تا 100 میلیون (از (Search Engine Watch صفحه وب و سند را داشتند.

قابل پیش بینی است که تا سال 2001 یک شاخص جامع از وب شامل بیش از دو میلیارد سند باشد.

در همان زمان تعداد پرس و جوهایی که موتورهای جستجو اداره می کنند به طور شگفت آوری افزایش می یابد.

در ماه مارس و آوریل 1994، کرم وب گستره جهانی (wwww) به طور روزانه حدوداً 1500 پرس و جو را دریافت می کرد.

در ماه نوامبر 1998، آلتاویستا (Altavista) اظهار داشت که روزانه حدود 20 میلیون پرس و جو را اداره می کند.

با افزایش تعداد کاربران وب و سیستمهای اتوماتیک که از موتورهای جستجو پرس و جو می کنند به نظر می رسد که تا سال 2001 موتورهای جستجو صدها میلیون پرس و جو را اداره خواهند کرد.

هدف سیستم گوگل توجه به بسیاری از مشکلات کیفیتی و مقیاس پذیری است که با عرضه تکنولوژی موتورهای جستجوی اینترنتی به میزان زیادی گسترش یافته اند.

تکنولوژی موتورهای جستجو باید به میزان زیادی تغییر پیدا می کرد تا بتواند هماهنگی خود را با گسترش وب حفظ کند.

در 1994، یکی از اولین موتورهای جستجوی وب یعمی کرم وب گستره جهانی (WWWW) شاخصی از 000/110 صفحه وب و اسناد در دسترس وب داشت.

1.2.1 گوگل: تغییر دادن وب این موتور جستجوایی که در سطح وب امروز باشد چالشهای بسیاری را پدید می آورد.

تکنولوژی جستجو و یافتن سریع برای جمع آوری و به روز رسانی سندهای وب لازمی می باشد.

فضای ذخیره سازی بهید به طور کارآمدی برای ذخیره شاخصها و به طور اختیاری خود سندها بکار گرفته شود.

سیستم شاخص بندی باید صدها گیگا بایت داده را به طور کارآمد پردازش کند.

پرس و جحوها باید به سرعت اداره شوند (با نرح صدها تا هزاران پرس و جو در ثانیه).

همان گونه که وب گسترش می یابد این وظایف نیز به طور صعودی مشکل می شوند.

اگرچه عملکرد سخت افزار و هزینه ها به طور چشمگیری بهبود یافته اند و تا حدی از این سختی را تعدیل کرده اند.

با این وجود تعدادی استثنای قابل اشاره نیز مانند زمان استوانه یابی دیسک و قابلیت ادامه کار در شرایط غیرمنتظره سیستم عامل وجود دارند.

در طراحی گوگل هر دو مسئلهع گسترش وب و تغییرات تکنولوژیک در نظر گرفته شده اند.

گ.گل برای تغییر مقیاس دادن مجموعه داده ها به خوبی طراحی شده است و از فضای ذخیره سازی به طور مؤثری استفاده می کند.

ساختمان داده های آن برای دسترسی سریع بهینه سازی شده اند (به بخش 4.2 نگاه کنید).

علاوه بر این، هزینه شاخص بندی و ذخیره متن یا HTML نهایتاً بستگی نمسبی به میزان در دسترسی آنها دارد و این بر تغییر مقیاس منتاسب برای سیستم های متمرکز شده مانند گوگل تاثیرگذار است.

.3.1 اهداف طراحی .1.3.1 کیفیت جستجوی بهینه شده هدف اصلی در طراحی گوگل بهینه کردنم موتورهای جستجوی وب است.

در سال 1994، بعضی از مردم تصور می کردند یک شاخص جستجوی کامل امکان یافتن هر چیزی را میسر می سازد.

بر طبق مقاله بهترینهای وب 1994 – پیمایشگرها و «بهترین سرویس پیمایشی باید امکان یافتن تقریباً هر چیزی را به آسانی فراهم کند (هنگامی که تمام داده ها وارد شدند)».

اگرچه وب 1999 کاملاً متفاوت است.

هر کسی که اخیراً از یک موتور جستجو استفاده کرده باشد به سادگی در می یابد که کامل بودن شاخص تنها عامل مؤثر بر کیفیت نتایج جستجو نمی باشد.

«نتایج آشغال» اغلب تمام نتایج مورد علاقه کاربر را خراب می کنند.

در حقیقت در نوامبر 1999، تنها یکی از چهار مکوتور تجاری برتر نتایج را خودش می یابد (در پاسخ در ده نتیجه برتر، صفحه جستجو شده خودش را برمی رگداند).

یکی از دلایل اصلی این مشکل این است که تعداد سندهای موجود در شاخصها به دلایل روشنی افزایش پیدا کرده اند اما توانایی کاربر بریا یافتن و نگاه کردن اسناد پیشرفت نکرده است.

مردم هنوز خواستار نتیجه اول جستجو هستند.

به همین دلیل، همان طور کهئ اندازه مجموعه گسترش می یابد، به ابزارهایی که دقت بسیار بالایی دارند نیاز بیشتری پیدا می شود (تعداد اسناد مربوط و مناسب برگردانده شده، در بین ده نتیجه برتر می آید).

در واقع، گوگل می خواهد مفهوم «مناسب» فقط شامل بهترین اسناد باشد درحالیکه ممکن است، ده ها هزار سند تقیرباً وجود داشته باشد.

خوش بینی های جدیدی در زمینه بهبود عملکرد موتورهای جستجو و سایر برنامه های اجرایی با استفاده بیشتر از اطلاعات فوق متنی بوجود آمده است [Kleinberg 98].

علی الخصوص، ساختمان پیوندها [Page 98] و نوشته پیوندها اطلاعات زیادی برای قضاوت مناسب و فیلترینگ کیفیت فراهم می کند.

گوگل از هر دوی ساختمان پیوند و متن انکر استفاده می کند.

.2.3.1 تحقیقات موتور جستجوی آکادمیک جدای از گسترش بسیار زیاد، وب به طور افزایشی در طول زمان حالت تجاری به خود گرفته است، در سال 1993، %5/1 از سرویس دهندگان وب بر دامنه .com قرار داشتند.

این مقدار در سال 1998 به %60 رسید.

در همان زمان، موتورهای جستجو از حوزه آکادمیک به تجاری کوچ کردند.

تا امروز اغلب پیشرفتهای موتورهای جستجو در شرکتهایی صورت می گیرد که حداقل میزان انتشار جزئیات را دارند.

این باعث می شود تکنولوژی موتور جستجو تا حد زیادی مثل جادوی سیاه مخفی باقی بماند و گرایش تبلیغاتی پیدا کند.

با گکوگل، سعی شده است تا پیشرفت و فهم بیشتری در قلمرو آکادمیک صورت گیرد.

یکی دیگر از اهداف طراحی ساخت سیستمهایی بود که تعداد قابل قبولی از مردم می توانند استفاده کنند.

قابلیت کاربری در طراحی بسیار مهم بوده است زیرا بنظر می آید که اغلب تحقیقات جالب شامل تأثیر استفاده گسترده از سیستمهای مدرن وب در دسترس هستند می باشد.

برای مثال، هر روز دهها میلیون جستجو اجرا می شوند.

اگرچه، بدست آوردن این داده ها مشکل است، بیشتر به این دلیل که با توجه به جوانب اقتصادی این داده ها ارزشمند هستند.

هدف نهایی طراحی گوگل ساخت یک معماری که قابلیت پشتیبانی از فعالیتهای تحقیق نوظهور برردی داده های در مقیاس وسیع وب را داشته بوده است.

برای پشتیبانی از استانداردهای تحقیقاتی نوول، گ.گل تمام اسناد فعلی را که جستجو می کند و می یابد به صورن فشرده ذخیره می کند.

یکی از اهداف اصلی طراحی گوگل بوجود آوردن محیطی بود تا سایر محققات بتوانند به سرعت وارد شده، قسمت بزرگی از وب را پردازش کرئه و نتایج جالب توجهی را تولید کنند که در غیر این صورت تولدی آنها غیر ممکن باشد.

در مدت زمان کوتاهی سیستم به جایی رسید که تعداد زیادی مقاله و تحقیق با استفاده از پایگاه داده گ.گل ایجاد شده بودند و بسیاری دیگر، در دست اقدام هستند.

هدف دیگر بوجود آوردن یک محیط لابراتوار مانند بود که محققان و حتی دانشجویان بتوانند تجربیات جالب و پیشنهادات مفیدی برروی داده های وب در مقیاس وسیع گوگل داشته باشند.

2.

ویژگیهای سیستم موتور جستجوی گوگل دو ویژگی مهم دارد که به تولید نتایج با وضوح و دقت بالا کمک می کند.

اول، گوگل از ساختار پیوند وب برای محاسبه رتبه بندی کیفیت برای هر صفحه وب استفاده می کند.

این رتبه بندی، رتبه صفحه نامیده می شود.

دوم، گوگل از پیوند برای بهبود نتایج جستجو بهره می گیرد.

1.2- رتبه صفحه: نظم بخشیدن به وب گراف فراخوانی (پیوند) وب یک منبع بسیار مهم است که توسط موتورهای جستجوی وب کنونی بی استفاده مانده است.

گوگل نقشه هایی شامل بیش از یک میلیارد از این فقو پیوندها که نمونه ای چشمگیر از کل هسته را بوجود آورده است.

این نقشه ها اجازه محاسبه سریع «رتبه صفحه» یک صفحه وب را می دهند، یک معیار عینی که اهمیت اشاره به آن برابر با تصویر ذهنی مردم از اهمیت است.

بخاطر این تطابق، رتبه یک صفحه راه عالی برای اولویت دادن به نتایج جستجوهای کلمه کلیدی در وب.

برای اغلب موضوعهای معروف یک نوشته ساده متناظر با جستجحو است به این معنی که محدود به تیترهای صفحات باشد یعنی زمانی که نتایج جتوسط رتبه بندی صفحه اولویت بندی می شوند به طور قابل تحسینی اجرا می شوند.

برای جستجوهای کاملاً متنی نیز در سیستم اصلی گوگل رتبه بندی صفحه کمک قابل ملاحظه ای می کند.

1.2.2.

توصیف محاسبه رتبه صفحه منابع نوشته آکادمیک در وب عمدتاً از طریق شمارش نوشته ها یا پیوندهای بازگشتی به یک صفحه خاص به کار گرفته شده اند.

این کار تقریبی از اهمیت یا کیفیت صفحه به دست می دهد.

رتبه بندی صفحه این مفهوم را از طریق نرمال سازی بوسیله تعداد پیوندها در یک صفحه و نه شمارش پیوندها به طور مساوی در تمام صفحات، گسترش می دهد، رتبه بندی صفحه به صورت زیر تعریف می شود: در نظر بگیرید که صفحات TN…T1 به صفحه a اشاره می کند (یعنی منبع هستند).

پارامتر d یک گامل محدود ساز است که می تواند بین 0 تا 1 تنظیم شود و اغلب d با مقدار 0.85 تنظیم می شود.

توضیحات بیشتر در مورد d در بخش بعید اارئه می شود.

بنابراین C(A) به عنوان تعداد صفحاتی که از صفحه A خارج می شوند، تعریف می شود.

رتبه صفحه A به صورت زیر داده می شود.

RR (A)=)1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)) توجه کنید که رتبه های صفحه یک توضیح احتمالی برروی صفحات می دهد، بنابراین مجموع رتبه های تمام صفحات وب یک (1) خواهد بود.

رتبه صفحه یا PR(a) می تواند بوسیله یک الگوریتم تکرار ساده محاسبه شود و با بردار خاص اصلی از ماتریس پیوند نرمال شده از وب تطابق داده شود.

بنابراین، رتبه بندی صفحه 26 میلیون صفحه وب می تواند در کمتر از چند ساعت برروی یک ایستگاه کاری متوسط محاسبه شود.

بسیاری جزئیات دیگری هستند که از محدوده این مقاله خارج است.

2.1.2.

توجیه شهودی رتبه صفحه می تواند به عنوان یک مدل از رفتار عملکرد کاربر فرض شود.

فرض می کنیم که یه «مرورگر تصادفی» وجود دارد چکه یک صفحه به طور تصادفی به او داده می شود و او برروی پیوندها کلیک می کند و هیچگاه دکمه (BACK) را نمی زند اما سرانجام خسته می شود و از یک صفحه تصادفی دیگر کار خود را ادامه می دهد.

احتمال اینکه این مرورگر تصادفی یک صفحه را ملاقات کند رتبه آن صفحه می باشد و d یعنی عامل محدودساز احتمال این است که آن «مرورگر تصادفی» از هر نسخهع خسته شود و تقاضای یک صفحه تصادفی دیگر بکند.

تفاوت مهم این است که عامل محدودساز d را تنها یک صفحه، یا گروهی از صفحات اضافه کنیم.

این کار امکان شخصی سازی را ایجاد می کند و تقریباً گمراه کردن عمدی سیستم به منظور بدست آوردن یک رتبه بالاتر را غیرممکن می سازد.

گوگل انشعابات متعدد دیگری برای رتبه بندی صفحه دارد که از محدوده این نوشته خارج است.

توجیه شهودی دیگر این است که یک صفحه می توان یک رتبه صفحه بالا داشته باشد اگر صفحات زیادی به آن اشاره کنند یا صفحاتی وجود دارند که به آن اشاره می کنند و خود رتبه صفحه بالایی دارند.

به ضوح، صفحاتی که به خوبی از جاهای محتلفی از وب تکرار می شوند ارزش نگاه کردن دارند.

همچنین، صفحاتی که ممکن است یک احضار از طرف جایی مانند صفحه خانگی یاهو!

داشته باشند عموماً ارزش نگاه کردن دارند.

اگر یک صفحه کیفیت بالایی نداشته باشد یا یک پیوند شکسته شده باشد به احتمال زیاد صفحه خانگی یاهو!

به آن پیوند نمی شود.

ضمناً رتبه بندی صفحه هر دوی این حالات و حالات دیگر را با وزن دهی تبلیغی به طور بازگشتی از طریق ساختار پیوند وب انجام می دهد.

.2.2 متن انکر (Anchor) در موتور جستجوی گوگل با نوشته پوندها به شیوه های خاصی برخورد می شود.

اغلب موتورهای جستجو نوشته یک پویند را به صفحه ای که پیوند در آن است مربوط می سازند.

گوگل علاوه بر این نوشته پیوند را به صفحه ای که به آن اشاره می کند نیز مربوط می سازد.

این کار منافع زیادی دارد.

اول، انکرها اغلب توصیف دقیق تری از صفحات وب نسبت به خود صفحات ارائه می دهند.

دوم، انکرها ممکن است برای سندهایی که نمی توانند توسط موتورهای جستجوی بر پایه متن شاخص بندی شوند وجود داشته باشندذ.

مانند عکسها، برنامه ها، و پایگاه ها داده.

این کار در حقیقت امکان بازگرداندن صفحاتی را که عمل جستجو و دانلود (Crawl) برروی آنها صورت نگرفته است را می دهد.

توجه کنید که صفحاتی که عمل جستجو و دانلود برروی آنها صورت نگرفته است می توانند ایجاد مشکل کنند از آنجا که آنها هیچ گاه برای صحت و اعتبار منطقی قبل از برگردانده شدن به کاربر چک نمی شود.

در این حالت موتور جستجو حتی می تواند صفحه ای را که اصلاً وجود ندارد اما فوق پیوندها به آن اشاره می کنند بازگرداند.

اگرچه امکان دسته بندی نتایج وجوود دارد درنتیجه این مشکل خاص به ندرت اتفاق می افند.

ایده متن انکر تبلیغاتی به صفحه ای که به آن باز می گرئئ توسط کرم وب گسترده جهانی (WWWW) تحقق پیدا کرد.

زیرا این متن به جستجوی اطلاعات غیرمتنی و گسترش دامنه جستجو با سندهای دانلودی کمتر کمک می کند.

گوگل به این دلیل از انکر تبلیغاتی استفاده می کند که متن انکر می تواند در فراهم کردن کیفیت بهتر نتایج کمک کند.

استفاده مفید از متن انکه به دلیل حجم بالای که باید پردازش شود از نظر تکنیکی مشکل است.

در مجموعه جستوجو و یافته شده حال حاضر گوگل که شامل 240 میلیون صفحه است بیش از دو و نیم میلیارد انکر شاخص بندی شده وجود دارد.

.3.2 ویژگیهای دیگر جدار از رتبه صفحه (PageRank) و استفاده از متن انکر، گکوگل ویژگیهای متعدد دیگری دارد.

اول، اطلاعات مکانی تمام بهترینها (Hits) را دارد و بنابراین استفاده وسیعی از اطلاعات مجاورتی در جستجو می کند.

دوم، گوگل جزئیات بعضی بخشهای دیداری مانند اندازه فونتهای کلمات را نگهداری می کند.

به کلماتی که بزرگتر نوشته شده اند یا پررنگتر هستند وزن بالاتری داده می شود.

سوم، HTML کل و خام هر ضفحه در انباره موجود می باشد.

3.

کارهای مربوطه تحقیقات جستجو برروی وب تاریخچه کوتاه و موجزی دارد.

کرم وب جهانی (wwww) یکی از اولین موتورهای جستجو وب بوده است.

این حرکت متعاقباً توسط موتورهای جستجوی آکادمیک متعددی دنبال شد که بسیاری از آنها هم اکنون تبدیل به شرکتهای تجاری شده اند.

در مقایسه با گسترش وب و اهمیت موتورهای جستجو سمدهای اندکی در مورد موتورهای جستجو اخیر وجود دارد.

به عقیده مایکل ماولدین (سرمحقق شرکت Lycos)، سرویسهای مختلف (شامل Lycos) یه سختی از جزئیات پایگاه داده هایشان محافظ می کنند.

اگرچه کار قابل توجهی برروی ویژگیهای خاصی از موتورهای جستجو صورت گرفته است.

به خصوص کار و تحقیقی که بیشتر نمودار است و بارز است کاری است که برروی عملیات بعد از پردازش برای بدست آوردن نتایج در موتورهای جستجوی تجاری فعلی صورت گرفته است و در ایجاد موتورهای جستجوی در مقیاس کوچک «شخص شده» کاربرد دار.

در نهایت تحقیقات زیاید چبرروی سیستمهای بازیافت اطلاعات صورت گرفته است به خصوص بر مجموعه هایی که نظارت درستی بر آنها اعمال می شود.

.1.3 بازیافت اطلاعات کار برروی سیستم های بازیافت اطلاعات به سالها قبل باز می گردد و پیشرفت قابل توجهی کردهخ است.

اگرچه، اغلب تحقیقات برروی سیستم های بازیافت بروی مجموعه های کوچک و همگن به خوبی کنترل شده صورت گرفته است مانند مجموعه های مقالات علمی یا داستانهای اخباری برروی موضوع قابت و به همین صورت.

آزمایش کارایی (benchmark) اولیه بازیافت اطلاعات، کنفرانس بازیافت متن، از یک مجموعه واقعاً کوچک و کاملاً کنترل شده برای سنجش مارائیهایش استفاده می کرده است.

مثیزان کارایی کوپوس بسیار بزرگ [TREC96} تنها 20 گیگابایت است کیسه با 147 گیگابایت جستجو و یافته شده از 240 میلیون صفحه وب گوگل بسیار محدود است.

مواردی که برروی TREC به خوبی کار می کنند اغلب برروی وب نتایج مناسبی ایجاد نمی کنند.

برای مثال بردار استاندارد مدلب فضا سعی در بازگرداندن مشابه ترین سندها به پرس و جو را دارد* با در نظر گرفتن اینکه هر دوی پرس و جو و سند بردارهایی تعریف شده بر اساس کاربرد کلمه هستند.

اما این استراتژی برروی اغلب سندها ببسیار کوتاه را بر می گرداند که در خقیقتا خودپرس و جو به اضافه چند کلمه محدذود هستند.

فی المثل ما شاهد بودیم که یک موتور جستجوی مهم صفحه ای را شامل چند جمله «جورج بوش کندزد» و تصویری از پرس و جوی «جورج بوش» «جرج بوش» برگردانده است.بعضی ها استدلال می کنند که کاربران برروی وب باید چیزی را که می خواهند دقیق تر مشخص کنند و در حقیقت کلمات بیشتری به پرس و جوهایی که ایجاد می کنند ، اضافه کنند.

گوگلی به شدت به شدت با این نظر مخالف است.

اگر کاربری پرس و جویی ماندد «جورجو بوش» را صادر کند ، آنها باید تا زمانی که حجم بالایی از طالاعات در دسترس با کیفیت بالا برروی این موضوع وجود دارد ، نتایج معقولی برگردانند.

با توجه به مثالهایی اینچنین، ما باور داریم که استاندارد بازیافت اطلاعات برای تقابل بهتر با وب نیاز به گسترش فراوانی دارد.

.2.3.2.3 تفاوتهای وب با مجموعه های کنترل شده وب مجموعه ای از سندهای کاملاً نامتجانس و کنترل نشده است.

اسناد موجود برروی وب از نظر شکل داخلی و همچنین فرااطلاعات خارجی موجود تفاوتهای فراوانی دارند.

برای مثال، استاندارد از نظر داخلی تفاوتهایی مانند زبان ایجاد (هر دو حالت انسانی و برنامه نویسی)، اصطلاحات واژگان (آدرسهای ایمکیل، پیوندها، کدهای آدرس، شماره های تلفن، شماره های تولیدات)، نوع یا فرمت (متن، Html، PDF، تصویر، صدا) دارند و حتی ممکن است تولیدات ماشینی باشند (فایلهای گزارشی یا خروجی یک پایگاه داده).

از طرف دیگر، فرا اطلاعات خارجی به عنوان اطلاعات نتیجه گرفته شده از یک سند تعریف می شوند، اما شامل اطلاعات درونی آن نیستند.

مثالهای فرا اطلاعات خارجی شامل مواتردی مانند اعتبار و شهرت منبع، تناوب به روز رسانی، کیفیت، تعداد دفعات اجرا و منابع استناد است.

نه تنها منابع ممکن فرا اطلاعات خارجی تنفاوت دارند بلکه مواردی که شامل تفاوت می شوند بسیار گوناگون هستند.

برای مثال، اطلاعات استعمال یک صفحه خانگی مهم مانند صفحه خانگی یاهو را که میلیونها بازدید را در حال حاضر دریافت می کند با اطلاعات استعمال یک مقاله گمنام تاریخی که ممکن است هر ده سال یکبار بازدید شود مقایسه کنید.

مسلماً این دو مورد باید به نوع متفاوتی در موتورهاید جستجو برخورد شوند.

تفاوت بزرگ دیگر بین وب و مجموعه های به خبی کنترل شده قدیمی این است که به طور منطقی کنترلی بر این که مردن چه چیزی برروی وب قرار می هند وجود ندارد.

انعطاف پذیری تولید تمام متنهای دلخواه را با نفوذ شدید موتورهای جستجو ترکیب کنید تا قدرت هدایت ترافیک به مسیری خاص توسط شرکتهایی که برای سود بیشتر نتایج موتورهیا جستجو را دستکاری می کنند، بدست آید.

که تبدیل به مشکل بزرگی شده است.

این مشکل در سیستمهای بازیافت اطلاعات قدیمی مورد توجه قرار نگرفته بود.

همچنین جالب است اشاره شود که حاصل کار فرا داده برای موتورهای جستجو به طور عمده غیر قابل استفاده و شکست خورده است.

دلیل این امر سوء استفاده از هر نوع متن در صفحات وب است که به طور غیر مستقیم به کاربر ارائه شده باشد به منظور دستکاری در موتورهای جستجو حتی شرکتهای متعددی وجود دارمد که در زمینه دستکاری در موتورهای جستجو برای سود بیشتر تخصص دارند.

4.

آناتومی سیستم در ابتدا یک مباحثه سطح بالا از معماری سیتم ارارئه می شود.

سپس توصیفی عمقی از ساختمان داده هاتی مهم سیستم خواهیم داشت.

در نهایت، بخشهای کاربلردی مهم مانند: جستجو دانلود (Vrawling) ، شاخص بندی به طور عمقی توضیح داده می شوند.

.1.4 نگاهی کلی به معماری گوگل در این بخش، یک نکاه اجمالی سطح بالا به عملکرد سیستم همان طور که در شکل 1 نشان داده شده است خواهیم داشت.

بخشهای بعدی برنامه های کاربردی و ساختمان داده هیا اشاره نشده در این بخش را توصیف می کنند.

اغلب تستهای گوگل با C و C++ برنامه ریزی شده است به دلیل بازدهی بهتر و امکان اجرا برروی هر دو سیستم لینوکس و سولاریس.

در گوگل، عمل Crawling (دانلود کردن صفحات وب) وب توسط برنامه های جستجو کننده و یابنده (Crawler) متعدد دستبندی شده صورت می گیرد.

یک سرویس دهنده URL (URL server) وجود دارد که لیستهای URL ها را جهت واکنشی به Crawler می فرستد.

صفحه های وب که واکنشی شدند به سرویس دهنده انباره فرستاده می شوند.

سپس صفحه های وب توسط سرویس دهنده انباره فرشده می شود و درون مخزن قرار می گیرند.

هر صفحه وب یک شماره شناسه مربوطه دارد که docID نامیده یم شود و زمانی به آن اختصاص داده می شود که URL جدید از یک صفحه وب تجزیه و استخراج می شود.

تابع شاخص بند و دسته بند اجرا می شود.

شاخص بند تعدادی تابع را اجرا می کند، مخزن را می خواند، اسناد را از حالت فشرده خارج، و تجزیه می کند.

هر سند به مجموعه ای از رویدارهای کلمه تبدیل می شود که هر کدام از آنها «بهترینها» نام دارد.

بهترینها خود کلمه، مکان در سند، تقریبی از اندازه فونت و حالت بزرگ نویسی را ذخیره می کند.

شاخص بند تمام بهترینها را درون مجموعه ای از «مخزنه» توزیع می کند و یک شاخص پیشرفته و مرتب شده را ایجاد می کند.

شاخص بند یک کار مهم دیگر را نیز انجام می دهد، تمام پیوندهای موجود در هر صفحه وب را تجزیه و استخراج می کند و اطلاعات مهم مربوط به آنها را درون یک فایل انکر ذخیره می سازد.

این فایل حاوی اطلاعات کاغی برای تشخیص مکانی که هر پیوند به آن اشاره می کند و یا از آن اشاره می شود، و همچنین نوشته پویند می باشد.

تجزیه گر URL فایل انرک را می خواند و URL های مربوط را به URL های قطعی و کامل تبدیل می کند و در نهایت docID ها را می سازد.

نوشته انکر را درون شاخص پیشرو قرار می دهد که وابسته docID ای است که انکر به ان اشاره می کند.

همجنین پایگاه داده ای از پیوندها که در حقیقت جفتهایی از docID هستند را تولید می کند.

پایگاه داده پیوندها برای محاسبه رتبه صفحه تمام اسناد بکار می رود.

دسته بندی مخازم را که بر اساس docID مرتب شده اند می گیرد (این یک کثال ساده است، به بخش 5.4..2 مراجعه کنید) و آنها را بر اساس کلمه (wordID) دوباره مرتب سازی می کند و با این کار شاخص معکوس را تولید می کند.

این کار به صورت درجا صورت می گیرد درنتیجه به فضای موقت اندکی برای انجام این عملیات نیاز داریم.

دسته بند همچنین یک لیست از شناسه های کلمه و آفستها ایجاد می کند و از آنها برای تولید شاخص معکوس کمک می گیرد.

یک برنامه به نام «روبرداشت واژگان» این لیست را با واژه نامه تولید شده توسط شاخص بند با هم می گیرد تا یک واژه نامه جدید که توسط جستجوگر مورد استفاده قرار می گیرد را تولید کند.

جستجوگر توسط یک سرویس دهنده وب اجرا می شود و از واژه نامه تولید شده توسط روبرداشت واژگان و از شاخص معکوس و رتبه صفحه با هم برای پلسخگویی به پرس و جو ها استفاده می کند.

.2.4 ساختمان داده های مهم ساختمان داده های گوگل بهینه شده هستند بنابراین یک مجموعه سند بزرگ می تواند با هزینه ای کم دنبال گشته و دانلود شود، شاخص بندی شود و در نهایت مورد جستجو قرار گیرد.

اگرچه، cpu ها و میزان سرعت ورودی و خروجی انبوه به طور چشمگیری در سالهای اخیر بهبود یافته اند، زمان استوانه جویی در دیسک هنوز به حدود MS10 زمان برای کامل شدن احتیاج دارد.

گویی به گونه ذی طراحی شده است که تا جای ممکن از استوانه جویی در دیسک اجتناب کند و این کار تاثیر قابل ملاحظه ای برروی طراحی ساختمانهای داده داشته است.

.1.2.4.

فایلهای بزرگ فایلهای بزرگ (Big Files) فایلهای مجازی هستند که در طول سیستمهای فایل چند گانه گسترش داده شده اند و قابل آدرس دهی به صورت 64 بیتی هستند.

تخصیص حافظه بین سیستمهای فایل چندگانه به صورت اتوماتیک اداره می شود.

بسته فایلهای بزرگک همچنینی تخصیص و بازپس گیری حافظه از توصیفگر فایل را بر عهده دارد و این کار از آنجا صورت می گیرد که سیتمهای عامل نیازهای سیستم گوگل را برطرف نمی کنند.

فایلهای بزرگ همچنین گزینه های مقدماتی فشرده سازی را پشتیبانی می کنند.

.2.2.4 مخزن مخزن، HTML کامل هر صفحه وب را شامل می شود.

هر صفحه با استفاده از (RFC 1950) zlib فشرده می شود .

انتخاب تکنیک مورد استفاده گوگل در فشرده سازی توازنی است بین سرعت و درجه فشرده سازی.

گوگل سرعت zlib را به همراه بهبود چشمگیر در فشرده سازی که توسط bzip ارائه می شود، انتخاب کرده است.

درجه فشرده سازی bzip را به همراه بهبود چشمگیر در فشرده سازی که توسط bzip ارائه می وشد، انتخاب کرده است.

درجه فشرده سازی bzip به وطر تقریبی 4 به 1 می باشد.

که در مقایسه با فشرده سازی 3 به 1 zlib برروی مخزن بهینه می باشد.

در مخزن سندها به صورت پی در پی ذخیره می شوند و بر اساس docID، طول و URL عنوان بندی می شوند (شکل 2).

مخزن به هیچ نوع ساختملن داده دیگری که به منظور دستیابی به آن مورد استفاده قرار گیرد، نیاز ندارد.

این حالت به سازگاری این ساختمان داده کمک می کند و گسترش آن را نیز ساده می سازد.

بنابراین گوگل می تواند تمامی ساختمان داده های دیگر را تنها از مخزن و یک فایل که شامل خطاهای Crawler است بازسازی کند.

.3.2.4 شاخص سند شاخص سند اطلاعات مربوط به هر سند را نگهداری می کند.

این شاخص ISAM است که گستردگی اصلاح شده دارد و بر اساس docID مرتب شده است.

اطلاعات ذخیره شده در هر مدخل شامل وضعیت شند، یک اشاره گر به مخزن، یکگ جمع مقابله ای از سند و آمارهای مختلف است.

سند جستجو دانلود شده شامل یک اشلره گر به یک فایل گسترده متغیر که docinfo (اطلاعات سند) نامیده می شود و خود URL آن سند و تیتر آن را در بر دارد می باشد.

در غیر این صورت آن اشاره گر به یک لیست URL که تنها شامل URL مورد نظر می باشد اشاره می کند.

این نوع طراحی به جهت فراهم آوردن یک ساختمان داده فشرده معقول و همچنین ایجاد قابلیت واکنشی یک رکورد در یک استوانه جویی دیسک برای هر جستجو اتخاذ شده است.

به علاوه فایلی وجود دارد که برای تبدیل URL ها به docID مورد استفاده قرار می گیرد.

و شامل لیستی از جمعهای مقابله ای URL می باشد به همراه docID های معادل آنها و بر اساس جمع مقابله ای مرتب شده است.

به منظور یافتن docID یک URL خاص، جمع مقابله ای آن URL محاسبه می شود و یک جستجوی دودویی برروی فایل جمعهای مقابله ای صورت می گیرد تا docID آن پیدا می شود.

URLها ممکن است با انجام یک الگوریتم ادغام با فایل جچمع مقابله به صورت گروهی به docID ها تبدیل شوند.

این تکنیکی است که تجزیه گر URL برای تبدیل URL ها به docID ها مورد استفاده قرار می دهد.

این حالت به روزرسانی گروهی بسیار مهم است زیرا در غیر این صورت باید برای هر پیوند یک استوانه جویی انجام شود که در این صورت چمع آوری یک مجموعه داده 300 میلیونی برروی یک دیسک بیشتر از یک ماه طول خواهد کشید.

4.2.4 واژه نامه واژه نامه اشکال گوناگونی دارد.

مهم ترین تغییر نسبت به سیستم های اولیه این است که با صرف هزینه ای معقول می توان واژه نامه را در حافظه جا دادا.

در شیوه اجرایی جاری می توان واژه نامه را برروی حافظه اصلی 256 مگابایتی یک سیتم نگهداری کرد.

.واژه نامه فعلی شامل 14 میلیون کلمه می باشد (البته بعضی کلمات نادر به واژه نامه اضافه نشده اند).

واژه نامه در دو بخش عملی می شود – لیستی از کلمات (ظاهراً بهم پیوسته اند اما بوسیله کاراکترهای null از هم جدا شده اند) و یک جدول هش از اشاره گرها، برای کارهای مختلف، لیست کلمات اطلاعات کمکی دیگری نیز دارد که توضیح آنها خارج از محدوده این مقاله است.

کلمات کلیدی: موتور جستجو فوق متنی - موتور جستجو وب - موتور جستجو وب در مقیاس وسیع

دانلود تحقیق کنترل دور موتورهای DC بدون جاروبک با استفاده از تراشه MC33035

۹۳

فصل اول مقدمه امروزه کاربرد وسيع موتورهاي الکتريکي در بخشهاي مختلف و در زندگي روزمره در مصارف خانگي و مصارف صنعتي آنچنان وسعت يافته که تصور دنياي موجود بدون موتورهاي الکتريکي اگر نگوييم غير ممکن بايد گفت غير قبل تصور مي‌باشد. پس از طراحي و

دانلود مقاله همه چیز درباره موتور های جستجو گر درجهان

۴۰

موتورهاي جستجو چگونه کار مي کنند؟ وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، کاربران در واقع نتيجه کار بخش هاي متفاوت موتور جستجوگر را مي بينند. موتور جستجوگر قبلا پايگاه داده اش را آماده کرده است و اين گونه نيست که درست در ه

دانلود تحقیق رده بندی کالا ها در فروشگاه های الکترونیکی یک رهیافت فازی

۲۲

چکيده: در مکتوبي که پيش رو داريد، روشي براي طبقه بندي کالاهاي موجود در فروشگاه هاي اينترنتي معرفي ميگردد. اين طبقه بندي بر اساس سليقه مشتري و همچنين اطلاعات گرفته شده از ديگر موتور جستجوها پيرامون کالاي مورد نظر بنا شده است. سلايق مشتري که به ص

دانلود تحقیق مفاهیم پایه‌ای اینترنت و وب

۵۷

با پیشرفت فن آوری و افزایش توان بشر در مهار کردن نیروی فوق العاده ای که در رویایی با قوانین طبیعت با آن مواجه می‌شود نسل جدید را بیش از گذشته ملزم به فراگیری علوم و فنون روز نموده است. بشر از دیر باز به دلایل مختلف نیاز به برقراری ارتباط با همنوعان خویش داشته است. از جمله دلایلی که برای برقراری ارتباط با دیگران در خود سراغ داریم،‌ نیازی است که گاها برای خروج از عالم تنهایی و ...

دانلود مقاله اینترنت و جستجوگرها

۱۵۱

موضوعي که در اين مجموعه مورد بررسي قرار گرفته است ترتيب اولويت بندي موتورهاي جستجو در اينترنت مي باشد موارد Search شده در Search engine به ترتيب هاي خاصي از بالا به پايين قرار مي گيرند وهر موتور جستجو براي اين اولويت بندي الگوريتم خاصي را درنظر مي گ

دانلود تحقیق موتور الکتریکی

۲۰۳

فصل 1 – مقدمه يک موتورالکتريکي، الکتريسيته را به حرکت مکانيکي تبديل مي کند. عمل عکس آن که تبديل حرکت مکانيکي به الکتريسيته است توسط ژنراتور انجام مي شود. اين دو وسيله بجز در عملکرد، مشابه يکديگر هستند .اکثر موتورهاي الکتريکي توسط الکترو مغنا

دانلود تحقیق عوامل موثر بر ارتقا فرایند نوآوری فناورانه در مرکز بهمن موتور و ارائه راهکارهایی برای بهبود آن

۷۷

الف- بيان مساله: از ديدگاه West & Farr (1990)نوآوري به سه دسته تقسيم مي شود:( West, Farr,1990) 1- نوآوريهاي کمکي: اين نوآوريها در زمره نوآوريهاي محيط سازماني قرار مي گيرند؛ به عبارتي نوآوريهايي هستند که فرد، تجربيات قبلي خود را در رابطه با انجام ي

دانلود مقاله اینترنت و سرمایه‌ی اجتماعی

۲۴

آيا ارتباطات اينترنتي، تعهد اجتماعي، مشارکت و تماس بين فردي را افزايش،کاهش يا تکميل مي‌سازد؟ مدرک و دليلمان حاصل بررسيهاي به عمل آمده درخصوص211/39 بازديد کننده وب سايت انجمن جغرافياي ملي، يکي از اولين بررسي‌هاي وب در مقياس وسيع مي‌باشد.حاصل بررسي ف

دانلود مقاله مکانیزاسیون تولید مجله تحت وب

۲۹

چکیده: این رساله که پایان نامه تحصیلی می باشد، مشتمل بر بخشهایی است که توصیفهایی از واحد درسی پروژه عملی، تحت عنوان (مکانیزاسیون تولید مجله تحت وب) را به دست می‌دهد و شامل فصول اصلی: ابزار و روش ها، تحلیل و طراحی، پیاده سازی می باشد. در هر فصل قسمت خاصی از این پروژه مورد بحث قرار گرفته است. موضوع انتخاب شده برای پروژه پایان نامه ای که شرح آن را پیش رو دارید،‌مکانیزاسیون تولید ...

دانلود تحقیق موتورهای جستجوگر

۲۴

با پيشرفت بشر در زمينه‌هاي مختلف علمي و افزايش سطح آگاهي انسان درباره پديده‌هاي مختلف و البته نياز رو به گسترش ما به دانش و اطلاعات در اين عصر زمينه براي بروز پديد‌ه‌هاي مختلفي که بتواند خواسته‌هاي علمي و اطلاع رساني انسان را براي برآورده‌ سازد افزا

ثبت سفارش

تعداد

عنوان محصول

قیمت