Sunday, December 24, 2006

الملف المقلوب

يسميه البعض الملف القاموسي Dictionary File ، أو الكشفي Indexed File ... وهو أكثر الطرق فاعلية لاسترجاع المعلومات ، فنظام الملف المقلوب يوازي تقريبًا أساليب تكشيف الكتب؛ والمداخل الكشفية أو نقاط الإتاحة في مراصد البيانات يتم وضعها في كشاف يربط بين تلك المداخل أو النقاط وروابط وجودها في الملف الرئيسي؛ وتتمثل تلك الروابط في أرقام تسجيلات الملف الرئيسي.( ) ويوضح بورش Burch( ) أنه إذا تضمن الملف المقلوب كل الحقول وعناصر البيانات الموجودة في الملف الرئيسي ، أو زادت التسجيلات بشكل كبير ؛ فإن الملف المقلوب يتضخم ؛ مما يؤدي إلى: (1) حاجته لحيز أكبر في مساحة التخزين على وسيط التخزين المستخدم ، (2) صعوبة عمليات التحديث والصيانة ، (3) البطء في عمليات الاسترجاع. وهذا بالطبع له تأثيراته الاقتصادية على موردي مراصد البيانات والمستفيدين. كل هذا جعل بعض النظم تلجأ إلى الحل الوسط ، وهو (الانتقاء) أو (الاختيار) لنقاط الوصول ؛ أو بمعنى آخر أن يتضمن الملف المقلوب عناصر مختارة جزئيًا من الملف الرئيسي ، ويتم الاختيار أو الانتقاء وفقًا لاحتياجات المستفيدين ، ووفقًا لدراسة للحقول الأكثر استخدامًا في الاسترجاع. ويبين نيجز Negus( ) أن مصممي نظم استرجاع المعلومات في محاولة منهم لتصميم مراصد بيانات وفق منهج فعال واقتصادي يلجأون إلى تصنيف (تقسيم) مصطلحات الكشاف (الملف المقلوب) في مجموعات وفقًا لأنواعها ؛ بحيث تشكل كل مجموعة ملفًا منفصلاً. ونتيجة لذلك فإن أغلب النظم تتطلب أن يحدد المستفيد ملف الكشاف / أو الجزء الذي يتوقع أن يظهر فيه البحث ؛ وذلك بأن يحدد حقول بيانات بعينها ؛ مثل : المؤلف ، أو العنوان. كما يوضح نيجز كيف أن بعض النظم تستخدم لواحق الكلمات بالنسبة لبعض الحقول ، وتستخدم سوابق الكلمات مع حقول أخرى. ويعمل هذا الأسلوب - في الغالب - من أجل زيادة فاعلية البحث في ملفات الكشاف (الملفات المقلوبة). فنجد مثلاً : أن جميع مصطلحات الكشاف (الملف / أو المفات المقلوبة) في نظام ديالوج تقع في ملف واحد. ولتجميع كل المصطلحات المتجانسة معًا ، ومن ثم تلافي إجراءات البحث غير الضرورية، فقد تم استخدام سوابق الكلمات التي هي في الواقع أجزاء من مصطلحات البحث مثل : Au-Smith ، وهذا يعني أن المطلوب استرجاع تعبير البحث المحدد ( وهو في المثال: Smith) في حقل المؤلف . والمقطع (Au) هو سابقة لتحديد الملف. أما عن لواحق البحث فتستخدم بعض النظم كنموذج لبحث ما : word/DE والتى تعني أن البحث عن تعبير البحث المحدد (وهو في المثال : word) في حقل الواصفات ، والمقطع (DE) هو لاحقة لتحديد الملف. أما علامتا (-) و (/) فهي فواصل بين تعبير البحث والسوابق أو اللواحق يفهمها محرك البحث. وفي منظومة CDS-ISIS( ) يتيح الملف المقلوب Inverted File طرقًا إضافية للوصول إلى التسجيلات غير رقمها الفريد (MFN) ، فهو مقلوب الملف الرئيسي ، أو بمعنى آخر هو أشبه بالكشافات التى تلحق بالأعمال المرجعية ؛ حيث يتيح الوصول إلى التسجيلات الببليوجرافية عن طريق المؤلف أو العنوان أو أي عنصر بيانات آخر موجود في التسجيلة. ويحتوى هذا الملف على جميع المداخل التى قد تستخدم كنقاط إتاحة وأمام كل منها أرقام التسجيلات التى وردت منها. ومثال ذلك : بفرض وجود أربع تسجيلات رئيسية (11 ، 32 ، 51 ، 182) تحتوي على مصطلح معلومات، فسيكون البناء المنطقي للتسجيلة الخاصة بالمصطلح في الملف المقلوب كما يلي: المعلومات 11 32 51 182 يمثل مصطلح (المعلومات) في هذا المثال ما نسميه (نقطة الوصول) أو (مصطلح القاموس)، وكل إحالة (رقم تسجيلة) تظهر إلى جانب المصطلح تسمى تدوينة Posting. يتيح نظام CDS-ISIS إنشاء الملفات المقلوبة بشكل انتقائي ؛ حيث يمكن انتقاء حقل / أو حقول فرعية / أو عناصر منها / أو كلمات مفردة / أوعبارات / أو واصفات من الحقول المنتقاة لإدراجها في الملف المقلوب. ويتم هذا الاختيار أو الانتقاء وفقـًا لملف آخر يسمى جدول اختيار الحقول FST الذي سيحتوي على الحقول التي ستقلب (أي يتم إدراجها في الملف المقلوب) ، وعلى تقنية التكشيف التي ستستخدم لكل حقل. ويختلف نظام CDS-ISIS عن نظم استرجاع المعلومات التي يتم فيها إنشاء ملفات مستقلة لكل حقل قابل للاسترجاع ؛ وذلك لأن CDS-ISIS يستخدم ملفًا مقلوبًا واحدًا لكل الحقول القابلة للبحث في مرصد البيانات. ونتيجة للبناء الخاص للملف المقلوب فإنه يعادل من الناحية الوظيفية تعددية الملفات المقلوبة ؛ حيث إن كل تدوينة Posting في الملف المقلوب لا تحتوي في الواقع على رقم الملف الرئيسي فقط ، وإنما تحتوي كذلك على معلومات إضافية تعرف بدقة بالحقل الذي استخرجت منه البيانات ، وكذلك موقع (المصطلح) النسبي ضمن الحقل. أما عن الطول الأقصى لنقطة الوصول (أي مصطلح القاموس) فيصل إلى 30 حرفًا، والعناصر التي يكون طولها أكثر من ذلك يتم بترها قبل إدراجها في الملف المقلوب. انظر شكل (2-8) الذي يبين العلاقة بين الملف الرئيسي والملف المقلوب، والشكل (2-9) نموذج لعينة من تسجيلات الملف المقلوب لعدد خمس تسجيلات من الملف الرئيسي.

No comments: