رشد سریع اطلاعات الکترونیکی در عصر حاضر، زمینهساز ایجاد انواع متعدد شبکههای کتابشناختی گردیده است.
دستیابی به اطلاعات الکترونیکی مستلزم استفاده از روش موثر در نمایهسازی و تشخیص کلیدواژههای مهم بیانگر محتوای یک مدرک است.
در همین راستا، (او.سی.ال.سی)1 که بزرگترین شبکه کتابشناختی جهان محسوب میشود به منظور فراهم آوردن تسهیلات لازم برای دستیابی سریع وموثر به اطلاعات، اقدام به ساخت سیستمنمایهسازی خودتحت عنوان وورد اسمیت نموده است.
مبنای کار این سیستم، تشخیص خودکار مفاهیم، کلمات و عبارات کلیدی در متن ماشینخوان، براساس »پردازش زبان طبیعی« است.
به این ترتیب شبکه (او.سی.ال.سی) با استفاده از تئوریهای زبانشناسی محاسباتی و معنائی-که مورد تأکید پردازش زبان طبیعی است-و نیز با بکارگیری تئوریهای اطلاعرسانی و مدلهای آماری، سعی در ساخت نمایهای داشته است که علاوه بر همخوانی با حجم عظیم دادههای این شبکه، از کارآئی و توانائی کافی و لازم در بازیابی سریع و موثر اطلاعات از محیط شبکه نیز برخوردار باشد.
نمایه مهمترین ابزار در نظامهای بازیابی اطلاعات و کلید اساسی برای دستیابی به اطلاعات مندرج در منابع اطلاعاتی است.
ارزش هر نمایه در گرو تهیه بهترین نقاط دستیابی و تأمین رضایت استفادهکنندگان در بازیابی اطلاعات است.
سالهاست که کتابداران مسائل مربوط به ذخیره و بازیابی اطلاعات را مدنظر قرار داده و برای کنترل موثر مواد سنتی، ابزاری را توسعه دادهاند.
توجه به روند تکاملی فرآیند نمایهسازی مبیّن این نکته است که افزایش حجم انتشارات و تغییر در شکل ارائه خدمات اطلاعرسانی، نظامهای نمایهسازی را نیز دستخوش تحولات قابل توجهی نموده است.
ابداع انواع نمایههای پیشهمارا، پس همارا، نمایههای خودکار و استفاده از انواع زبانهای طبیعی، آزاد و ساخت یافته یا کنترل شده همه تلاشهایی بودهاند در جهت بهبود و تکمیل فرآیند نمایهسازی در انجام رسالت خاص خود.
ایجاد شبکههای متعدد کتابشناختی و نیز رشد سریع آنها، فرصتهای متعدد و چالشهای بیسابقهای را فراروی حرفه کتابداری و اطلاعرسانی برای دستیابی به حجم عظیمی از اطلاعات گذارده است.
چنین شرایطی نیاز به مجتمع و یکپارچهسازی منابع موجود در محیط وب و اینترنت همراه با انواع مواد سنتی کتابخانهای، ضرورت بررسی مجدد ابزارهای موجود در بازیابی اطلاعات و کنترل کتابشناختی را ایجاب مینماید.
بزرگترین شبکهء کتابشناختی پیوستهء موجود، شبکه (او.سی.ال.سی) میباشد (هسی-یی، 1996) که در سال 1967 ایجاد شده است و حاوی بیش از 31 میلیون رکورد در فرمتهای مختلف است.
این شبکه یک سازمان تحقیقاتی غیرانتفاعی واقع در اوهایو میباشد که با ارائه خدمات کتابخانهای امکان دستیابی 41 هزار کتابخانهء مختلف را به اطلاعات فراهم میآورد.
هدف کلی (او.سی.ال.سی) افزایش دسترسپذیری منابع کتابخانهای از طریق اشتراک در منابع و کاهش نرخ رشد هزینههای کتابخانهای است.
شبکه (او.سی.ال.سی) در راستای تحقق بخشیدن به این هدف اقدام به تهیه پروژههائی نموده است که یکی از مهمترین این پروژهها، پروژه نمایهسازی دبلیو.اس میباشد.
هدف نمایهسازی دبلیو.اس اصلاح و بهبود دستیابی به اطلاعات الکترونیکی با استفاده از روشهای موءثر برای تشخیص کلیدواژههای مربوط به محتوای یک مدرک میباشد.
تشخیص کلمات و عبارات باید به گونهای باشد که به بهترین نحوی مبیّن موضوع مدرک باشند و در نتیجه نمایههای مفید و کارآمدی برای مدارک موجود در وب ایجاد گردد.
به همین منظور مبنای این نمایهسازی، تشخیص خودکار مفاهیم در متن ماشینخوان براساس پردازش زبان طبیعی، مدلهای آماری، زبانشناسی محاسباتی و تئوری ردهبندی میباشد.
مقالهء حاضر ضمن معرفی شبکهء کتابشناختی (او.سی.ال.سی) و اشاره به خدمات، پایگاههای اطلاعاتی و پروژههای این شبکه، بطور اجمالی به مرور نظامهای نمایهسازی و زبانهای بازیابی اطلاعات میپردازد و سپس طراحی و ساختار نظام نمایهسازی دبلیو.اس را تشریح مینماید.
پایگاه کتابشناختی (او.سی.ال.سی)
انواع پایگاههای کتابشناختی با هدف تسهیل و تسریع در ارائه خدمات کتابشناختی و کمک به پیشرفت دانش ایجاد شدهاند و از بدو پیدایش خود تاکنون با ارائه سرویسها و خدمات متعدد، افراد و کتابخانههای مختلف را در تحقق اهداف خود یاری بخشیدهاند.
این پایگاهها دامنه وسیعی از خدمات را ارائه میدهند از جمله خدمات تهیه مواد، فهرستنویسی و خدمات مرجع.
بسیاری از کتابخانهها به دلیل فشارهای اقتصادی، رشد روزافزون حجم انتشارات و در نتیجه لزوم وجود شبکهای برای اشتراک منابع و تعاون بین کتابخانهها و همچنین لزوم تغییر فاز از مالکیت به سمت دستیابی به اطلاعات، بر استفاده از این شبکهها تأکید دارند.
بطور کلی از طریق این پایگاهها میتوان به سه پرسش اساسی پاسخ داد: 1) سئوالات کتابشناختی یعنی امکان بدست آوردن اطلاعات کامل دربارهء یک کتاب، مجله یا انواع خاص دیگر مواد کتابخانهای.
سیستمهای شبکهای معمولاً دادههای فهرستنویسی کاملی بر روی صفحه (سی.آر.تی) پایانه میآورند.
2) سئوالات تحقیقی (تعیین صحت و سقم چیزی) مربوط به تشخیص هجی صحیح نام یک نویسنده، نام ناشر، تاریخ و غیره.
3) سئوال در مورد تعیین محل مدرک.
از طریق این قبیل سیستمها میتوان فهمید که کدام کتابخانهها مواد اطلاعاتی مورد نیاز را دارند.
سیستمهای کتابشناختی مثل (آر.ال.آی.ان)، (او.سی.ال.سی) و غیره شبکههائی غیرانتفاعی و بینالمللی هستند که با روشهای متنوعی اداره میشوند و به شکلهای بسیار متفاوت اقدام به ارائه خدمات مینمایند.
عملکردهای خاص این شبکهها عبارتند از: تعیین محل سریع کتاب، مقاله و غیره؛ فراهمآوری و تهیه مواد از طریق مستقیم یا غیرمستقیم؛ کنترل گردش و دستیابی فهرست راه دور و فهرستنویسی مشترک.
هر سیستم شامل مدخلهای فهرستگان ملی مثلاً رکوردهای مارک است.
این رکوردها شامل همه فرمتها از جمله کتاب، نشریهء ادواری و نسخ دستی میباشند.
بزرگترین شبکهء کتابشناختی موجود، شبکهء (او.سی.ال.سی) میباشد (هسییی، 1996) که به منظور دستیابی بیشتر به اطلاعات جهانی بوجود آمده است.
موءسسات و کتابخانههای دانشگاهی و تحقیقاتی (هر کدام با توجه به نوع نیاز خود) در سطح وسیعی از این شبکه استفاده میکنند.
این شبکه، یک سازمان تحقیقاتی غیرانتفاعی است که به ارائه خدمات کتابخانهای میپردازد و در اوهایو واقع شده است.
چکیده رشد سریع اطلاعات الکترونیکی در عصر حاضر، زمینهساز ایجاد انواع متعدد شبکههای کتابشناختی گردیده است.
در همین راستا، (او.سی.ال.سی)1 که بزرگترین شبکه کتابشناختی جهان محسوب میشود به منظور فراهم آوردن تسهیلات لازم برای دستیابی سریع وموثر به اطلاعات، اقدام به ساخت سیستمنمایهسازی خودتحت عنوان "وورد اسمیت" نموده است.
مبنای کار این سیستم، تشخیص خودکار مفاهیم، کلمات و عبارات کلیدی در متن ماشینخوان، براساس »پردازش زبان طبیعی« است.
به این ترتیب شبکه (او.سی.ال.سی) با استفاده از تئوریهای زبانشناسی محاسباتی و معنائی-که مورد تأکید پردازش زبان طبیعی است-و نیز با بکارگیری تئوریهای اطلاعرسانی و مدلهای آماری، سعی در ساخت نمایهای داشته است که علاوه بر همخوانی با حجم عظیم دادههای این شبکه، از کارآئی و توانائی کافی و لازم در بازیابی سریع و موثر اطلاعات از محیط شبکه نیز برخوردار باشد.
کلیدواژهها: شبکه کتابشناختی (او.سی.ال.سی)، نمایهسازی (دبلیو.اس)، نمایهسازی خودکار، پردازش زبان طبیعی مقدمه نمایه مهمترین ابزار در نظامهای بازیابی اطلاعات و کلید اساسی برای دستیابی به اطلاعات مندرج در منابع اطلاعاتی است.
ارزش هر نمایه در گرو تهیه بهترین نقاط دستیابی و تأمین رضایت استفادهکنندگان در بازیابی اطلاعات است.
سالهاست که کتابداران مسائل مربوط به ذخیره و بازیابی اطلاعات را مدنظر قرار داده و برای کنترل موثر مواد سنتی، ابزاری را توسعه دادهاند.
ابداع انواع نمایههای پیشهمارا، پس همارا، نمایههای خودکار و استفاده از انواع زبانهای طبیعی، آزاد و ساخت یافته یا کنترل شده همه تلاشهایی بودهاند در جهت بهبود و تکمیل فرآیند نمایهسازی در انجام رسالت خاص خود.
ایجاد شبکههای متعدد کتابشناختی و نیز رشد سریع آنها، فرصتهای متعدد و چالشهای بیسابقهای را فراروی حرفه کتابداری و اطلاعرسانی برای دستیابی به حجم عظیمی از اطلاعات گذارده است.
چنین شرایطی نیاز به مجتمع و یکپارچهسازی منابع موجود در محیط وب و اینترنت همراه با انواع مواد سنتی کتابخانهای، ضرورت بررسی مجدد ابزارهای موجود در بازیابی اطلاعات و کنترل کتابشناختی را ایجاب مینماید.
بزرگترین شبکهء کتابشناختی پیوستهء موجود، شبکه (او.سی.ال.سی) میباشد (هسی-یی، 1996) که در سال 1967 ایجاد شده است و حاوی بیش از 31 میلیون رکورد در فرمتهای مختلف است.
شبکه (او.سی.ال.سی) در راستای تحقق بخشیدن به این هدف اقدام به تهیه پروژههائی نموده است که یکی از مهمترین این پروژهها، پروژه نمایهسازی دبلیو.اس میباشد.
هدف نمایهسازی دبلیو.اس اصلاح و بهبود دستیابی به اطلاعات الکترونیکی با استفاده از روشهای موءثر برای تشخیص کلیدواژههای مربوط به محتوای یک مدرک میباشد.
به همین منظور مبنای این نمایهسازی، تشخیص خودکار مفاهیم در متن ماشینخوان براساس پردازش زبان طبیعی، مدلهای آماری، زبانشناسی محاسباتی و تئوری ردهبندی میباشد.
مقالهء حاضر ضمن معرفی شبکهء کتابشناختی (او.سی.ال.سی) و اشاره به خدمات، پایگاههای اطلاعاتی و پروژههای این شبکه، بطور اجمالی به مرور نظامهای نمایهسازی و زبانهای بازیابی اطلاعات میپردازد و سپس طراحی و ساختار نظام نمایهسازی دبلیو.اس را تشریح مینماید.
پایگاه کتابشناختی (او.سی.ال.سی) انواع پایگاههای کتابشناختی با هدف تسهیل و تسریع در ارائه خدمات کتابشناختی و کمک به پیشرفت دانش ایجاد شدهاند و از بدو پیدایش خود تاکنون با ارائه سرویسها و خدمات متعدد، افراد و کتابخانههای مختلف را در تحقق اهداف خود یاری بخشیدهاند.
از طریق این قبیل سیستمها میتوان فهمید که کدام کتابخانهها مواد اطلاعاتی مورد نیاز را دارند.
سیستمهای کتابشناختی مثل (آر.ال.آی.ان)، (او.سی.ال.سی) و غیره شبکههائی غیرانتفاعی و بینالمللی هستند که با روشهای متنوعی اداره میشوند و به شکلهای بسیار متفاوت اقدام به ارائه خدمات مینمایند.
این رکوردها شامل همه فرمتها از جمله کتاب، نشریهء ادواری و نسخ دستی میباشند.
بزرگترین شبکهء کتابشناختی موجود، شبکهء (او.سی.ال.سی) میباشد (هسییی، 1996) که به منظور دستیابی بیشتر به اطلاعات جهانی بوجود آمده است.
این شبکه، یک سازمان تحقیقاتی غیرانتفاعی است که به ارائه خدمات کتابخانهای میپردازد و در اوهایو واقع شده است.
تاریخچه، اهداف و عضویت در (او.سی.ال.سی) در سال 1967، مسئولین دانشکدهها و دانشگاهها در اوهایو، یک سیستم کامپیوتری به نام »مرکز کتابخانهای کالج اوهایو«2 را ایجاد نمودند که در آن کتابخانههای موءسسات آکادمیک اوهایو میتوانستند در منابع مشترک شوند و هزینهها را کاهش دهند.
اولین دفاتر (او.سی.ال.سی) در کتابخانهء اصلی دانشگاه ایالتی اوهایو مستقر گردیدند و اولین دفتر کامپیوتری آن در مرکز تحقیقاتی "او.سی.یو"3 جای گرفت.
فردریک کلیگور، اولین مسئول (او.سی.ال.سی) بود.
در سال 1991 ساختمان مدیریت OCLC توسعه یافت.
این شبکه دارای پنج مرکز مدیریت در کلمبو، اوهایو و کتابخانه اصلی دانشگاه ایالتی اوهایو میباشد و محل کنونی آن در فرانتس رود 6565 در دوبلین است.
اداره (او.سی.ال.سی) با اعضای آن است.
ساختار مدیریتی آن متشکل از اعضای عمومی، شورای اعضا و هیأت امناء است.
(او.سی.ال.سی) از یک سیستم کامپیوتری منطقهای برای 45 کالج اوهایو شروع شد و در نهایت به یک شبکهء بینالمللی تبدیل گردید.
در سال 1977 اعضای (او.سی.ال.سی) از اوهایو، با عضویت کتابخانههای خارج از اوهایو موافقت کردند و به این ترتیب، (او.سی.ال.سی) به او.سی.ال.سی.اینک تغییر نام داد و امروزه انواع مختلف کتابخانهها از سراسر دنیا از خدمات (او.سی.ال.سی) استفاده مینمایند.
به دنبال آن شورای استفادهکنندگان (او.سی.ال.سی) تشکیل گردید (جردان، 1998).
این شورا متشکل از کتابداران و سایر شرکائی است که شایستگی و صلاحیت آنها برای عضویت منوط به میزان سهمی است که در فهرستگان آنلاین (او.سی.ال.سی) دارند.
با ایجاد اصلاحات در سختافزار، امکانات بیشتری برای استفادهکنندگان بیشتری فراهم نمود.
از سال 1973 کتابخانههای غیرآکادمیک توانستند عضو (او.سی.ال.سی) شوند و نیز بر تعداد شبکههای خارج از ایالتی که به (او.سی.ال.سی) پیوستند افزوده گشت.
کتابخانهها با عضویت در (او.سی.ال.سی) میتوانند به همهء اطلاعات جهانی و به تمامی خدمات و پایگاههای اطلاعاتی دسترسی یابند.
این عضویت، بزرگترین کنسرسیوم کتابخانههای جهانی را در بر میگیرد و در بین سایر شبکههای کتابشناختی بیشترین تعداد اعضاء را دارد.
تعداد اعضای آن تا سال 1991 بیش از 7000 کتابخانه در سراسر دنیا بود که اکثر آنها از امریکا و کانادا بودند.
در سراسر تاریخ (او.سی.ال.سی) ارتباطات راه دور، یک وسیلهء مهم برای تداوم اهداف کلی خود در زمینهء افزایش دستیابی به اطلاعات جهانی و کاهش هزینهء اطلاعات بوده است (جردان، 1998).
این شبکه همچنان براساس پروتکل استاندارد صنعتی (تی.سی.پی/آی.پی) طی سه سال آینده در جهت تبدیل به یک شبکه کاملاً باز به پیش میرود.
از طرف دیگر امکان دستیابی با کیفیت بالا را برای کتابخانهها فراهم میسازد.
هدف کلی و اساسی (او.سی.ال.سی) که بر مبنای افزایش سهولت دستیابی و استفاده از پیکره رو به رشد دانش و اطلاعات علمی، ادبی و آموزشی (گزارش سالیانه، 1995) قرار دارد، عبارت است از افزایش دسترسپذیری منابع کتابخانهای و کاهش نرخ رشد هزینههای کتابخانه.
در راستای تحقق این هدف، اهداف ذیل را دنبال میکند: استقرار، نگهداری و پیاده کردن یک شبکه کتابخانهای کامپیوتری و افزایش استفاده از کتابخانه، بررسی و توجه به مسائل مربوط به کتابخانهها و کتابداری، فراهم نمودن امکانات و محصولاتی که به نفع استفادهکنندگان کتابخانه وکتابخانهها باشد؛ از جمله افزایش قابلیت دسترسی به منابع کتابخانه برای مراجعین به کتابخانهها و کاهش هزینههای هر واحد کتابخانه.
کارهائی که (او.سی.ال.سی) انجام میدهد شامل خدمات فهرستنویسی، جستجو، امانت بین کتابخانهای و فهرستگان ادواریها میباشد.
بطور کلی میتوان گفت که در سه زمینه خدمات مرجع و نشر الکترونیکی، توسعه فهرستنویسی، خدمات اشتراک منابع و توسعه بینالمللی پیشرفت داشته است.
شبکه و خدمات کتابشناختی (او.سی.ال.سی) شبکه و خدمات کامپیوتری آن با بیش از 41000 کتابخانه در 82 کشور و قلمرو ارتباط برقرار مینماید.
(او.سی.ال.سی) از یک پایگاه کتابشناختی به نام "اپیک" نگهدای میکند.
در سال 1991 این سیستم شامل 16 میلیون کتاب، یک میلیون سریال و 450000 رسانه سمعی بصری و همچنین 500000 گزارش بوده است.
و تقریباً دو میلیون رکورد سالانه به آن اضافه میشود (کاتز، 1974) بطوریکه هم اکنون این پایگاه حاوی بیش از 31 میلیون رکورد در فرمتهای مختلف کتاب، فیلم، گزارش یا تکنگاشت از کتابخانههای عضو میباشد.
(اپیک) مداخل متعددی از جمله دستیابی موضوعی و کلیدواژهای و جستجوی بولین را فراهم میکند.
دستیابی موضوعی فقط از سال 1990 میسر بود.
نرمافزار اپیک علاوه بر رکوردهای او.سی.ال.سی امکان جستجوی پایگاههای دیگر را از (اریک) و (ان.تی.آی.اس) فراهم میسازد.
سیستم اپیک هر ساله پایگاههای اطلاعاتی جدیدی به پایگاههای خود میافزاید.
به این ترتیب (او.سی.ال.سی) بزرگترین منبع اطلاعاتی جهانی است.
نوارهای مارک در قلب سیستم (او.سی.ال.سی) قرار دارد و نیز شامل فهرستنویسی اصلی مهم اعضا و موجودی همه کتابخانههای دولتی است.
فهرستگان پیوسته (او.سی.ال.سی)، از نظر تعداد کتابخانههای عضو و از نظر عمق و وسعت پوشش، پایگاه کتابشناختی پیشگام در دنیاست.
تا قبل از سال 1970 اکثر فعالیتهای (او.سی.ال.سی) مربوط به تحقق در مورد طرح و عملکرد سیستم کامپیوتری فهرست آنلاین بود اما پس از آن تعداد 440711 فهرستبرگه آف لاین را نیز تولید کرد (پرومنشنکل، 2000).
در سال 1971 سیستم فهرست آنلاین شروع به کار کرد و در سال مالی 1972، کتابخانهها بیش از 330000 عنوان را فهرست کردند.
در سال 1974 (او.ال.یو.سی) به یک میلیون رکورد، در 1975/76 به دو میلیون، سال بعد به سه میلیون و در دسامبر 1980 به هفت میلیون رکورد کتابشناختی رسید (جردان، 1998).
در 1994 این پایگاه شامل بیش از 29 میلیون رکورد بود و نرخ افزایش رکورد آن در هفته 22000 رکورد میباشد (کروک، 1995).
در ژانویه 1999، (او.سی.ال.سی) یک پروژه فوری اولیه تحت عنوان (کرک) یا فهرست منابع پیوسته تعاونی را ارائه نمود.
هدف این پروژه که مبتنی بر (دی.سی) یا استاندارد هسته فرادادهای در دوبلین بود، توسعه یک فهرست منابع در محیط وب بود.
در ژانویه سال 1999 مرکز کامپیوتری کتابخانه اوهایو، پروژه "کورک" را آغاز نمود تا یک پایگاه اطلاعاتی جامع برای منابع پیوسته از طریق تعاونی بینالمللی با کتابخانهها ایجاد کند.
پایگاههای اطلاعاتیو سرویسهای (او.سی.ال.سی) (او.سی.ال.سی) به منظور تامین نیازهای انواع کتابخانهها، طیف وسیعی از خدمات را ارائه میدهد که شامل ابزار فهرستنویسی، پایگاههای اطلاعاتی مرجع و خدمات جستجوی پیوسته، ابزار اشتراک منابع، خدمات حفاظت و ردهبندی دهدهی دیوئی میباشد.
همچنین امکان ارتباط با فروشندگان متعدد پایگاههای اطلاعاتی را میسر میسازد.
بطور کلی پایگاههای اطلاعاتی (او.سی.ال.سی) شامل WorldCat, ArticleFirst, Electronic Collection Online, NetFirst, PAIS International, PaperFirst, Proceedings First, OCLC Union Lists of Periodicals میباشد.
در اینجا به دو پایگاهها یعنی "وورلدکات" و فهرستگان پایگاه اطلاعاتی مجلات در (او.سی.ال.سی) یا بطور مختصر اشاره میشود.
در مرکز خدمات (او.سی.ال.سی)، پایگاه اطلاعاتی "وورلدکات" قرار دارد که بیشترین استفاده را در آموزش عالی دارد و سابقه دانش بشری را از 4000 سال گذشته تاکنون به 400 زبان دربرمیگیرد.
"وورلدکات" بزرگترین پایگاه اطلاعاتی کتابشناختی در جهان است که حاوی بیش از 46 میلیون رکورد فهرستنویسی از کتابخانههای سراسر جهان بوده و هر پانزده ثانیه یک رکورد جدید به آن اضافه میگردد (پرومنشنکل، 2000).
این رکوردها شامل کتاب، نسخ دستی، نوارهای ویدئویی و صوتی، نشریات ادواری، روزنامهها، نقشهها، و برنامههای کامپیوتری میباشد.
به علاوه محصولات میکروفیلم و میکروفیش را به شکل نوار یا فرمت کارتی فهرست میکند.
ورلدکات طرحهایی را برای توسعه مجموعه، فهرستنویسی، کنترل مستند، و خدمات گذشتهنگر ارائه مینماید.
میتوان از طریق سیستمهای محلی به طرو مستقیم به ورلدکات دسترسی یافت.
فهرستگان پایگاه اطلاعاتی مجلات در او.سی.ال.سی، یکی دیگر از پایگاههای اطلاعاتی این شبکه است که شامل میلیونها (ال.دی.آر) میباشد و به بیش از 750000 رکورد کتابشناختی مرتبط شده است.
هر (ال.دی.آر) مجموعه اطلاعاتی خاصی از نشریات ادواری را فراهم میکند.
سیستم فرعی کنترل نشریات ادواری در (او.سی.ال.سی) از سال 1975 مورد استفاده قرار گرفته است و هدف از طراحی آن، فراهمآوری امکان مشارکت موءسسات در کنترل آنلاین نشریات ادواری است.
این سیستم دارای چهار جزء است: کنترل، پیگیری، کنترل صحافی و فهرستگان، تا سال 1980 فقط جزء کنترل آن کار میکرد اما کتابخانهها میتوانستند از سیستم کنترل محدود ادواریها نیز استفاده کنند.
پردازش یک نشریهء ادواری جدید و یا تغییر یک عنوان، یکی از مشکلترین کارهایی است که سیستم فرعی کنترل ادواریها در (او.سی.ال.سی) باید انجام دهد.
مبنای فرآیند کنترل خودکار سیستم فرعی کنترل ادواریها در (او.سی.ال.سی)، کد بسامد یک رکورد دادهای محلی است.
اما این کدها همیشه روزآمد نمیشوند.
حل مسائل مربوط به تغییر بسامد، منوط به استفاه از جزء پیگری کنترل ادواریهاست (رافتون، 1982).
یکی از مهمترین سرویسهای (او.سی.ال.سی)، سرویس امانت بین کتابخانهای است که در سال 1979 معرفی گردید و از آن زمان با استفاده از این سرویس بیش از 14 میلیون امانت بین 6700 کتابخانهء سراسر جهان انجام گرفت.
یکی دیگر از این سرویسها، خدمات جستجوی اولیه میباشد که به عنوان یک ابزار مرجع در سال 1991 معرفی شد و اکنون در 19246 کتابخانه استفاده میشود.
وظیفه آن ارائه خدمات در زمینهء مجلات الکترونیکی به کتابخانهها و تأمین نیازهای استفادهکنندگان راه دور است.
این سرویس با ایجاد یک ذخیرهء اطلاعات و فراهم نمودن امکان اشتراک کتابخانهها (بطور مستقیم از طریق ناشر) در مجموعه چاپی مجلات علمی، نقش خود را در توسعهء مجموعه ایفا مینماید.
مقالات مجلات در (او.سی.ال.سی) بطور الکترونیک ذخیره میشود و کتابخانهها میتوانند از طریق وب، با استفاده از یک مرورگر وب اشتراکی و از طریق رابط پشتیبانیکننده از جستجو در مجلات، به آنها دست یابند.
از طریق خدمات جستجوی اولیه استفادهکنندگان میتوانند به 70 پایگاه اطلاعاتی مشهور و شناخته شده دسترسی پیدا کنند.در حال حاضر این سرویس دارای صفحات جستجو و گرافیکهای جدیدی است که انجام جستجوهای اساسی و پیشرفته را برای استفادهکنندگان به مراتب راحتتر کرده است (هیزل، 1996).
یکی دیگر از سرویسهای (او.سی.ال.سی)، سرویس همکاری کتابخانهای مرکز خدمات غرب است (فورد، 2000).
این سرویس به منظور استفاده از قدرت جمعی 1700 کتابخانه عضو بر سه نوع خدمات متمرکز است: فراهمآوری امکاناتی برای ایجاد پایگاه اطلاعاتی؛ حفاظت و رقمی کردن منابع؛ و ایجاد فرصتهای آموزش.
ایجاد پایگاه اطلاعاتی، تخفیفهای قابل توجهی از لحاظ مشترک شدن در منابع الکترونیکی به همراه دارد.
حفاظت و رقمی کردن نیز به اصلاح دستیابی به اطلاعات کمک میکند و همچنین به اعضا در نگهداری مجموعه کمک مینماید.
(او.سی.ال.سی) همچنین با کنسرسیومهای رسمی و غیررسمی کتابخانهها، موزهها و آرشیوها در تعیین روشهای حفاظت مشارکت دارد.
بخش حفاظت از منابع، اقدام به ارائه خدمات میکروفیلمی و رقمی در غرب مینماید و نیز با شبکههای منطقهای و سایر سازمانها برای تهیه خدمات مشاورهای و آموزشی مرتبط همکاری مینماید.
بطور کلی میتوان گفت مهمترین فعالیتهای اصلی مرکز خدمات غرب، عبارتند از: برگزاری کارگاههای آموزشی و به نمایش گذاشتن محصولات و خدمات (او.سی.ال.سی)، توسعه فعالیتهای مربوط به آموزش فهرستنویسی، توسعه برنامههای مدیریت کتابخانه، خدمات مرجع، حفاظت و رقمیسازی (پرومنشنکل، 2000).
(او.سی.ال.سی)، کتابخانهها و اینترنت محیط وب و اینترنت، مکانیزم دیگری برای تحول مدرک در راستای هدف عمومی (او.سی.ال.سی) یعنی افزایش دستیابی به اطلاعات جهانی و کاهش هزینههای اطلاعاتی است در اختیار (او.سی.ال.سی) قرار میدهد.
شبکهء اینترنت روشهای جدید و مهیّجی در زمینهء خدمات فنی فراروی (او.سی.ال.سی) و کتابخانههای عضو قرار میدهد.
کتابخانههای عضو (او.سی.ال.سی) به سرعت در حال افزایش استفاده از خدمات وب و اینترنت میباشند.
در حال حاضر تقریباً 85% از کاربرد جستجوی اولیه و 18% از فهرستنویسی پریزم و اشتراک منابع بر روی اینترنت موجود است.
(او.سی.ال.سی) از طریق http://www.oclc.org/ در روی وب قابل دسترسی است.
با افزایش تعداد کتابخانهها، کنسرسیومها و شرکتهایی که به اینترنت وصل میشوند، این شبکه جهانی با محدودیتهای فنی روبرو میشود (لایبریز، 2002).
در همین زمینه مهندسین شبکه (او.سی.ال.سی) و فراهمآورندگان خدمات اینترنت جهت رفع مسائل ناشی از افزایش ترافیک اینترنت که بر قابلیت دسترسی و زمان پاسخگوئی تأثیرگذار است، با یکدیگر همکاری مینمایند.
دسترسی به (او.سی.ال.سی) (او.سی.ال.سی) در ابتدای تشکیل خود، در سال 1971، یک امکان دستیابی ویژه به نام (multidrop dedicated) و در 1974، یک امکان دستیابی تلفنی (dial-access) فراهم نمود.
بیست سال بعد (multidrop) متداولترین روش دستیابی باقی ماند.
در سال 1991، (او.سی.ال.سی) یک شبکه جدید x.25 را نصب کرد که نه تنها سریع، قابل اعتماد و از نظر هزینه، سودمند بود بلکه میتوانست با نیازهای فزاینده خدمات کتابشناختی (او.سی.ال.سی) سازگار باشد.
در سال 1995، (او.سی.ال.سی) شروع به فراهم آوردن دستیابی اینترنتی برای خدمات فهرستنویسی و خدمات اشتراک منابع خود نمود (جردان، 1998).
استفاده کننده میتواند به طور خودکار به (او.سی.ال.سی) وصل شود و پایگاههای اطلاعاتی انتخابی خود را جستو نماید.
همچنین میتواند به طور مستقیم و یا از طریق شبکههای منطقهای مثل دانشگاه ایالتی شبکه کتابخانهای (او.سی.ال.سی) نیویورک یا "نلینت" به (او.سی.ال.سی) دسترسی یابد.
هزینههای ورودی در هر یک از این سیستمها متفاوت است.
هزینههای (او.سی.ال.سی) شامل استنادهای آنلاین و نیز تجهیزات، نگهداری و هزینههای ارتباط راه دور هستند (کاتز، 1974).
(او.سی.ال.سی) بر روی دیسکهای فشرده نیز قابل دسترسی میباشد.
مجموعه دیسکهای فشرده (کت)CD450 حاوی زیرمجموعههائی از رکوردهای پایگاه اطلاعاتی اصلی میباشد که بطور فصلی روزآمد میشوند.
این دیسکها در پنج زمینهء موضوعی کشاورزی، آموزش، هنر، علوم انسانی، علوم و تکنولوژی به فروش میرسند.
هر مجموعه، علاوه بر افزایش نمایهها، دستیابی به رکوردهای (او.سی.ال.سی) در این زمینههای موضوعی را فراهم میکنند.
مثلاً بستهء نرمافزاری آموزشی شامل رکوردهای (او.سی.ال.سی) در آموزش و نیز دیسکهای جاری و گذشتهنگر اریک میباشد.
پروژههای (او.سی.ال.سی) (او.سی.ال.سی) دارای پروژههائی است که عبارتند از: Kilory, Scorpion, Marc, Xml, ، (آر.دی.اف)،Dublin, Kilory, WordSmith به طور کلی اینترنت را مورد جستجو قرار میدهد و با پایگاههای اطلاعاتی تمام متن و پایگاههای اطلاعاتی فرادادهای از منابع اینترنتی ارتباط برقرار میکند.
Iteract که در سال 1993 شروع و در سال 1996 تکمیل گردید.
عبارت است از یک سیستم بررسی تحقیقاتی (او.سی.ال.سی) از نظر ماهیت و اندازه منابع اینترنتی و تأثیر بالقوهء آنها بر عملیات کتابخانهای Mantis به منظور سازماندهی و دستیابی به منابع الکترونیکی، استفاده و جامعیت سیستمهای Kilory, Scorpion, Marc, Xml, ، (آر.دی.اف)،Dublin Core و WordSmith را مورد تحقیق و بررسی قرار میدهد.
اسکورپیون پروژه جدیدی است که به بررسی نمایهسازی و فهرستنویسی منابع الکترونیکی میپردازد.
با توجه به افزایش اطلاعات موجود در وب، و در نتیجه افزایش مدت زمان لازم برای یافتن اطلاعات مورد نیاز و نیز افزایش هزینهء دستیابی به آن، پروژه اسکورپیون در نظر دارد نمایهسازی و فهرستنویسی را با یکدیگر ترکیب کند و مخصوصاً ابزاری برای تشخیص خودکار موضوع براساس طرحهای شناخته شدهء ردهبندی دیوئی تهیه نماید.
در صورتی که سرعنوانهای موضوعی یا دامنههای مفهومی را بتوان بطور خودکار به مدارک الکترونیک تخصیص داد، میتوان در زمینهء ایجاد ابزار فیلترکنندهای برای جستجو اقدام نمود (شیفر، 1996).
پروژهء وورداسمیت، سیستم نمایهسازی او.سی.ال.سی است که محور اصلی این مقاله را تشکیل میدهد.
پروژهء "دبلیو.اس" در پایگاه کتابشناختی (او.سی.ال.سی) یکی از اهداف کوتاه مدت پروژهء (او.سی.ال.سی)، توسعهء نرمافزاری است که بتواند عبارات را بطور خودکار تشخیص داده و این عبارات را هوشمندانه در مدارک تمام متن سازماندهی کند و به این ترتیب نمایههای مفیدتری برای پایگاههای اطلاعاتی ایجاد گردد.
به همین منظور با استفاده از روشهای توسعهیافته در زبانشناسی محاسباتی و نیز استفاده از نرمافزار NetOwl امکان تشخیص و مقولهبندی اسامی خاص در متن غیرساختاری و نیز تهیهء لیستهای مقولهبندی شده مناسب از اسامی اشخاص و اسامی جغرافیائی فراهم آمد (گودبی، 1998).
چند خروجی نمایه در شکل 1 نشان داده شده است.
Have havey haw Havei havice hawing havill hawed Haven havilland hawker شکل1.
نمایش قسمتی از یک نمایه تکواژهای مدخل نمایه، اسم کامل یک مفهوم مشخص را در متن تعیین میکند مثلاً عباراتی که در شکلهای 2 و 3 آمده است.
Air pollutants air power Air pollution air pressure Air pollution air quality شکل2.
عبارات اسمی در یک پایگاه اطلاعاتی در محیط وب Yevette Abel Tasman Haskins National Park Yevgeny Abercorn KafeInikov Street شکل 3.
اسامی اشخاص و اسامی جغرافیائی در یک پایگاه اطلاعاتی در محیط وب بطور کلی مجموعهای از مداخل نمایه چکیده محتوائی یک پایگاه اطلاعاتی را نشان میدهد و سهولت دستیابی به انواع چکیدهها را فراهم میسازد.
به عنوان مثال متداولترین اسامی اشخاص در پایگاه اطلاعاتی مقالات خبری استخراج شده از وب در شکل 4 نشان داده شده است.
Bob Dole L Gore Greg Noble ennis Gerge George Bush شکل4.
اسامی افراد در پایگاه اطلاعاتی مقالات خبری از طرف دیگر نمایههای عبارتی دربرگیرنده موضوعاتی مثل male breast cancer است که هنور در سیستمهای ردهبندیای مثل دیوئی جائی برای آن در نظر گرفته نشده است.
با توجه به موارد بالا، این نوع نمایهسازی برای پایگاه اطلاعاتی خیلی بزرگ تفاوت بسیاری با نمایهسازی مدارک تمام متن یا غیر ساخت یافته دارد.
این موضوع یکی از اهداف اساسی پروژهء دبلیو.اس برای ثبت فنون پردازش زبان طبیعی به منظور قابل دسترس ساختن اطلاعات جهانی است (گودبی، 1998).
در سال 1996 دفتر تحقیقات، یک برنامهء تحقیقاتی را تحت عنوان پروژه دبلیو.اس پردازش زبان طبیعی آغاز کرد.
هدف اولین مرحله این پروژه، توسعهء روشهای اساسی برای تشخیص اصطلاحات مربوط به موضوعات فرهنگی بود.
نتایج را میتوان در نمایهها، اصطلاحنامهها و سیستمهای ردهبندی که منجر به افزایش دستیابی به پایگاههای اطلاعاتی (او.سی.ال.سی) میشوند گنجاند؛ چون تمرکز بر روی تشخیص و تحلیل اصطلاحات است.
دبلیو.اس دارای پروژهء دیگری به نام وورداسمیت توسعه یافته است.
این پروژه با بکارگیری زبانشناسی محاسباتی، یک سری فیلترهای آماری را تکمیل کرده و به بررسی امکانسنجی استخراج مستقیم اصطلاحات موضوعی از متن خام میپردازد.
و به این ترتیب با استفاده از فن مشابهی اصطلاحات تزاروسی را به طور خودکار تولید میکند (خان، 2002).
از جنبهء عملیتر، توسعهای که اخیراً در فناوری “LEXIS/NEXIS SmartIndexing” ایجاد شده، خصوصیات واژگان کنترل شده را با الگوریتم نمایهسازی ترکیب میکند تا با مواردی مانند بسامد، وزندهی، و تعیین محل مدرک در نمایهسازی مجموعههای خبری LEXIS/NEXIS ارتباط پیدا کند.
قبل از ادامهء بحث پیرامون ساختار و مدلهای نمایهسازی دبلیو.اس لازم است دربارهء پردازش زبان طبیعی که در این نمایه مورد استفاده قرار گرفته است توضیحاتی ارائه گردد.
پردازش زبان طبیعی پردازش زبان طبیعی یا (ان.ال.پی) در ارتباط با توسعهء برنامههای کامپیوتری است که میتواند زبان طبیعی را تجزیه و تحلیل کرده و در زمینهء اطلاعات مندرج در متن یا گفتار، عملکرد مناسبی داشته باشد.
(ان.ال.پی) تاریخ طولانی دارد و شروع آن همزمان با تلاشهائی بود که در سال 1950 در زمینهء ترجمهء ماشینی انجام گرفت (گریشمان، 1984).
بیش از سه دههء گذشته، این نوع پردازش مجموعهای از مدلهای آماری، زبانشناسی و معنایی را مورد توجه قرار داده است (دزکوچ، 1986).
یکی از ویژگیهای (ان.ال.پی) این است که میتوان ساختارهای زبانشناسی متفاوتی برای انتقال یک حقیقت بکار برد.
در نتیجه برای کنترل متون زبان طبیعی حتی در یک دامنهء محدود، به قوانین زیادی نیاز است.
این قوانین باید سازماندهی شود و برای انجام این کار، لازم است ابتدا »ساختار اطلاعات« را در همان حیطهء پردازش متون مشخص نمود.
به این ترتیب اقدام به ردهبندی و تعیین نحوهء ترکیب این حقایق برای تشکیل ساختارهای بزرگتر نمود.
قالبها و شکلهای متعددی برای اشراف بر دامنه اطلاعات ایجاد شده است.
بعضی از این قالبها تحت عنوان »سیستمهای مبتنی بر چارچوب« یا”frame-based systems” نامیده شده است.
یک چارچوب یا عبارت است از یک ساختار دادهای برای نگهداری اطلاعاتی در مورد نمونهای از یک رده خاص موضوعات.
یا قالبی که مخصوصاً برای تحلیل متون علمی و فنی ایجاد شده است »فرمت یا قالب اطلاعاتی« نام دارد.
تحلیل نحوی بیشترین زمینهای است که در زبانشناسی محاسباتی مورد مطالعه قرار گرفته و نسبتاً موفق بوده است (گریشمان، 1984).
زبانشناسی محاسباتی حوزهای است که به سرعت در حال رشد است و بسیاری از مسائل متفاوت در پردازش زبان را مورد توجه قرار میدهد.
تحلیلگرهای زیادی دارد که برای کارهای ساده پرسش و پاسخ تعداد کمی از آنها کفایت میکند.
اما در مقایسه با توانایی انسان در درک زبان، هیچ یک از این تحلیلگرها عالی نیستند.
حتی اگر بتوانند تطابقهای ورودی برای الگوهای مورد انتظار نحوی و معنائی را بخوبی انجام دهند، لیکن از عهدهء کنترل ورودی که قادر به تأمین این انتظارات نیست برنمیآیند.
انسان انعطافپذیرتر است و میتواند در صورت عدم رعایت هنجارهای نحوی، از کلیدهای معنائی و نیز کلیدهای نحوی استفاده نماید.
به هرحال هم انسان و هم کامپیوتر میتوانند اطلاعات را کنترل کنند.
مثلاً هنگامی که میگوییم Mary ate pudding علاوه بر معنای آن، اکثر مردم معنای Mary pudding ate را نیز از آن درک میکنند حتی اگر خلاف الگوهای نحوی معمولی باشد.
همچنین از عبارت “Mary ate frapple” حدس خواهند زد که frapple یک نوع غذاست حتی اگر قبلاً این کلمه را نشنیده باشند.
برای رفع ابهام از این سئوال، نیاز به اطلاعات زمینهای است.
باید به موانع و محدودیتهای محلی توجه کرد و همچنین ردههای معنایی اسم، فعل و صفت را تعریف و سپس محدودیتهایی که از نظر با هم قرار گرفتن این ردهها وجود دارد را مشخص نمود.
حوزههای زبان طبیعی دارای دو کاربرد اصلی هستند: »ماهیت طبیعی بازیابی پایگاه اطلاعاتی« و »ماهیت غیرتعاملی ساختاربندی متن«.
پردازش زبان طبیعی، ثبت برخی از انواع اطلاعات را از طریق مکالمهء انسان-ماشین، موءثرتر میکند.
سطوح پردازش زبان طبیعی بررسی امکانات (ای.آر) برای (ان.ال.پی) از نظر سطوح پردازش زبانشناسی محاسباتی عبارتند از: 1) سطح فونتیکی یا آوائی مربوط به صداهای گفتار؛ 2 سطح مورفولوژیکالی مربوط به پردازش شکلها و بخشهای قابل تشخیص هر کلمه؛ 3) سطح واژگانی مربوط به عملکرد کلمات؛ 4) سطح نحوی در تحلیل زبان مربوط به تشخیص واحدهای ساختاری مثل عبارات اسمی.
محققان زبانشناسی محاسباتی و هوش مصنوعی ابزار تجزیهگر خودکار و پیشرفتهای برای استفاده در ان.ال.پی ایجاد کردهاند.
از جمله موجودیتهای نحوی مثل عبارات اسمی در شکل سرعنوانهای موضوعی، امکانات کنترل آزاد متن مثل عملگردهای همجواری و تطابق الگو، تسهیلاتی برای محدود کردن جستجو به مرزهای متنی خاص مثل عنوان که به منزله ساختارهای مهم نحوی در (ای.آر) به کار میرود.
5) سطح معنائی تحلیل مربوط به استفاده از دانش متنی برای نشان دادن معنای متن زبان طبیعی؛ 6) سطح عملی تحلیل زبان از اطلاعات مربوط به موضوعات زندگی واقعی استفاده میکند و به رفع ابهام معنائی کمک مینماید.
پردازش زبان طبیعی یک جزء جدائیناپذیر از کاربردهای هوش مصنوعی است.
هوش مصنوعی حوزه وسیعی از علم کامپیوتری میباشد که مربوط به رفتار هوشمند برنامههای کامپیوتری است و شامل سئوال و جواب، ترجمهء ماشین، یادگیری ماشینی، سیستمهای ماهر و جلودارهای هوشمند برای سیستمهای پایگاه اطلاعاتی-مدیریتی میباشد.
مشخصهء (ان.ال.پی) در هوش مصنوعی، زبانشناسی قوی و پیچیده، و توانائیهای منطقی یعنی استنتاجات قیاسی و استقرائی آن است.
به هر حال در هر دو زمینهء هوش مصنوعی و (آی.آر) نیاز به یک تئوری واحد دربارهء زبان و منطق برای کنترل زبان طبیعی و تحلیل معنائی خودکار و ساختاربندی حجم عظیمی از متن زبان طبیعی برای بازیابی اطلاعات و هوشمند ساختن دانش جدید وجود دارد.
از نقطه نظر پردازش زبان طبیعی و سیستمهای (آی.آر)، سیستمهای (دی.بی.ام.اس) و سیستمهای هوش مصنوعی یا نشاندهنده پیشرفت ساختاربندی و پیچیدهتر شدن عملکردهای پردازش اطلاعات است (دزکچ، 1986).
به طور کلی سیستمهای موجود بازیابی اطلاعات، سیستمهائی اساساً منفعل هستند که توسط جستجوکنندگان انسانی هوشمند استفاده میگردند.
سیستم نمایهسازی دبلیو.اس، یک نظام نمایهسازی خودکار براساس پردازش زبان طبیعی و برنامههای هوشمند کامپیوتری استوار است.
ساختار نمایهسازی دبلیو.اس نمایهسازی (دبلیو.اس)، سیستمی خودکار است که بر مبنای زبانشناسی محاسباتی و تئوری ردهبندی استوار است.
هدف این سیستم، اصلاح دستیابی استفادهکننده به مجموعه الکترونیکی از طریق توسعه روشهای موءثر در تشخیص و سازماندهی کلیدواژههای مهم در محتوای یک مدرک است4.
مبنای کار در این نمایهسازی، تشخیص خودکار مفاهیم در متن ماشینخوان است.
برای تشخیص کلمات و عباراتی که به بهترین نحو مبیّن موضوع مدرک باشند از تئوریهای زبانشناسی و اطلاعرسانی استفاده میگردد.
به این ترتیب دائماً برای پایگاههای اطلاعاتی، اصطلاحات موضوعی تهیه میشود.
قسمتی از نمایه در ذیل آورده شده است: نمونهای از نمایه وورداسمیت در طراحی سیستم نمایهسازی (دبلیو.اس) چهارمدوله برای مشخص کردن واژگان موضوعی وجود دارد که در شکل 5 نشان داده شده است.
هر مدوله الزاماً خصوصیت فیلتری را دراد که جستجو را به توصیفگرهای موضوعی بالقوه در متن ماشینخوان نامحدود میسازد.
هر چه تعداد فیلترها بیشتر باشد، پردازش پیچیدهتر و متمرکزتر میشود.
فیلتر اول جدولساز است که وظیفهء آن ایجاد فایلهای دادهای میباشد.
با توجه به طرح لایهای این سیستم،متمرکزترین پردازش ممکن است به میزان 005% فایل دادهای اصلی محدود شود.
فایلها شامل: بسامد واژهها، بسامد بیگرمهای متوالی و بسامد بیگرمهای متوالی که همایند آنها با یکدیگر خیلی کم است.
مثلاً اگر مقالهای در زمینه نمایهسازی دبلیو.اس در اختیار جدولساز قرار گیرد، بیگرمهای متوالی عبارتند از: The WordSmith, WordSmith Indexing & indexing System.
و این روند به همین ترتیب ادامه مییابد تا همه جفت کلمات نزدیک به هم مشخص و شمارش شوند.
بیگرمهای همایند حدود 25% از بیگرمها را نشان میدهند.
این امر بوسیلهء یک آمار همایندی ساده مشخص میگردد (گودبی، 1998).
شکل 5.
فیلترهای چهارگانه در سیستم نمایهسازی وورداسمیت استفاده از آمار همایندی در متنی که درباره نمایهسازی خودکار باشد، نشان میدهد که احتمال این که کلمه indexing بعد از کلمه automatic بیاید بسیار زیاد است.
فایلهائی که به وسیلهء جدولساز ایجاد میشوند، مبنائی هستند برای همه پردازشهای بعدی.
فیلتر دوم، یعنی معرفه انگرام یا یک مرحله پیش پردازشی است که حدود 20% از متن خام که دارای بیشترین احتمال از نظر داشتن واژگان قابل نمایه شدن باشد، را مشخص مینماید.
این معرّفه، توالیهای شکسته نشده کلمات همایند را با استفاده از متن خام و فایل بیگرمهای همایند، به عنوان ورودی مییابد.
این کلمات ممکن است طولانیتر از دو کلمه باشند.
ورودی ممکن است شامل توصیفگرهای موضوعی مفیدی مثل “WordSmith Indexing System” باشد.
از آنجا که در مورد خروجی مطلوب، پیش فرضهای اندکی وجود دارد لذا معرّفه "انگرام" بیشتر رشتههای متنی طولانیتری که احتمالاً مبیّن قراردادهای انشائی در یک حوزهء موضوعی بوده و ساختارشان قابل پیشگوئی نباشد را دربر میگیرند.
مثلاً انگرامهای مجموعهای از اخبار سیاسی، دربردارنده طیف وسیعتری از مسائل میباشند.
مسائلی مانند حرص، تباهی، تحول در رهبری و غیره.
فیلتر دوم، مدل نمایه است و هدف آن ایجاد واژگان مفیدی است که قابل نمایه شدن باشند.
برای انجام این کار، خروجی معرفّه انگرام را دستکاری و مرتب کرده، آنها را تبدیل به عبارات کوتاهی که دارای ساختار استاندارد باشد، مینماید.
از آنجا که دامنه بالقوه وسیعی از واژگان مفید وجود دارد، مدل نمایه بسته به خصوصیات متن ورودی و نیاز استفادهکننده، دارای پارامترهای بسیار زیادی است.
وظیفهء این پارامترها، مشخص کردن معیارهای خاصی است که عبارات قابل نمایه شدن میتوانند تأمین کنند.
مدل نمایه همچنین با استفاده از »برچسب جزئی از گفتار« میتواند با ایجاد تغییرات ساده در یک فایل شکلی، تئوریهای بسیاری را در مورد ساختار اصطلاحات نمایه مورد استفاده قرار دهد.
مثلاً بطور معمول فرض بر این است که عبارات اسمی نرمال شده را به عنوان توصیفگرهای موضوعی خوب در نظر بگیرند؛ مانند: aerpspace industry, aviation fuel tax, bank fraud, beef crisis این اصطلاحات شامل توالی اسمی هستند اما عبارات اسمی که به وسیلهء صفات مشخص میشوند نیز میتوانند توصیفگرهای موضوعی باشند؛ مثل: big labour, biological warefare agent ...
بعضی از حوزههای موضوعی ممکن است شامل عبارات اسمی زیادی با حروف ربط یا حروف اضافهای باشند؛ مثل: Library of Congress Subject Headings, high crimes.
اما همهء عبارات نمایه به همین راحتی نیستند.
این موارد را میتوان با استفاده از تعداد آمار همایندی که به وسیلهء مدولهء جدولساز تأمین میشود، تشخیص داد.
همه این متغیرهای موجود در مدل نمایه را میتوان دستکاری کرد و واژگان مفیدی که محتوای پایگاه اطلاعاتی را دقیقتر از تکواژهها منعکس کند ایجاد نمود.
بسته به حد و مرزهای تعیین شده در فایل شکلی، مدل نمایه ممکن است 005% از فایل متن اصلی را نشان دهد.
مدل موضوعی آخرین مرحله در مشخص کردن واژگان موضوعی است.
این مدل در صورتی مورد استفاده قرار میگیرد که متن ورودی از یک موضوع محدود گرفته شده باشد یا به عبارت دیگر مربوط به نمایهسازی یک متن موضوعی خاص باشد.
دستیابی به چنین متنی از طریق وب امکانپذیر است.
واژگان برگرفته شده از موضوعات محدود، یکسری قواعد اضافی را نشان میدهد که با استفاده از چند فرآیند آماری نسبتاً ساده میتوان آنها را مشخص و مرتب نمود.
برای مثال، عباراتی که به منزلهء خروجی مدل نمایه هستند و همگی آنها از مجموعه خاصی از مدارک استخراج شده باشند، خوشههائی را تشکیل میدهند که مبتنی بر شباهت نحوی میباشد.
در مجموعه مدارکی که در مورد نرمافزار کاربردی کامپیوتری باشد، کلمهء “file”، کلمهای متداول است زیرا نه تنها به عنوان یک اصطلاح مهم در متن ظاهر میشود بلکه کلمهای است که در رأس عبارات اسمی مثل (پی.دی.اف)File, HTML file و غیره قرار میگیرد.
همچنین در مورد مدارکی که در زمینه معماری میباشد، کلمهء design، یک کلمهء متداول است و در عباراتی مثل architectural design, urban design و غیره ظاهر میشود.
در زبانهای غیرانگلیسی، ممکن است سرعنوان عبارت اسمی، مستقیمترین اسم نباشد؛ اما بدون توجه به محل ظاهرشدن آن کلید قابل اعتمادی برای تشخیص واژگان موضوعی غنی و پرمحتوا باشد (گودبی، 1998) میگوید آکهگاوا و واخهولدر که از متخصصین زبانشناسی محاسباتی هستند، توالیهای این مشاهدات را مورد بررسی قرار میدهند.
به منظور تشریح خروجی ایجاد شده توسط سیستم نمایهسازی (دبلیو.اس)، از همهء فیلترهای این سیستم استفاده میشودتاعباراتی را از دو حیطهء موضوعی متفاوت یعنی ستارهشناسی و مطالعات پژوهشی به دست آوریم.
متداولترینسرعنوانهایعباراتاسمیمربوطبه هر مجموعه از متون در زمینهء مقالات این دو حوزه به شرح زیر است: