تجزیه‌ و تحلیل طرح‌بندی تصاویر متنی مبتنی بر طبقه‌بندی نواحی در یک ساختار سلسله‌مراتبی تصمیم‌گیری

نوع مقاله: مقاله پژوهشی

نویسنده

استادیار /دانشگاه آزاد اسلامی واحد نجف‌آباد

چکیده

تبدیل اسناد کاغذی به صورت نسخه الکترونیکی جهت ذخیره‌سازی، بازیابی و جستجو  بر اساس محتوا مسأله مهمی در سیستم‌‌های خودکارسازی ادارای و سیستم‌هایی که وظیفه استخراج اطلاعات از مجاری اینترنت دارند، به شمار می‌رود. برای نیل به این هدف، ارائه سیستم‌هایی که بتواند محتوای تصاویر متنی1 را تجزیه‌ و‌ تحلیل کنند، ضروری به نظر می‌رسد. در این مقاله، جهت تجزیه‌ و تحلیل تصاویر متنی و دسترسی به محتوای آنها، یک ساختار سلسله‌مراتبی طبقه‌بندی مبتنی بر یک الگوریتم ناحیه‌بندی دو مرحله‌ای پیشنهاد شده است. در این ساختار، تصویر به وسیله الگوریتم پیشنهادی ناحیه‌بندی دو‌مرحله‌ای، ناحیه‌بندی می‌شود. سپس متنی‌بودن و غیرمتنی (عکسی) بودن نواحی حاصل به کمک چندین طبقه‌بند در یک ساختار سلسله‌مراتبی طبقه‌بندی مشخص می‌گردد. الگوریتم ناحیه‌بندی پیشنهادی از دو مرحله ناحیه‌بندی مبتنی بر تبدیل موجک و آستانه‌گذاری استفاده می‌کند. از ویژگیهای بافت همچون ویژگی همبستگی، انرژی، همگنی و آنتروپی مستخرج از ماتریس همرخدادی و همچنین دو ویژگی مستخرج از زیرباندهای تبدیل موجک، جهت طبقه‌بندی و شناسایی برچسب نواحی شکل گرفته در مرحله ناحیه‌بندی استفاده می‌گردد. طبقه‌بند سلسه‌مراتبی از دو طبقه‌بند پرسپترون چندلایه2 و یک طبقه‌بند ماشین بردار پشتیبان3 تشکیل شده است. الگوریتم پیشنهادی بر روی یک پایگاه داده تصاویر متنی و غیرمتنی که از تصاویر موجود در اینترنت فراهم شده است، مورد ارزیابی قرار گرفته است. نتایج آزمایشها بیانگر کارایی روش پیشنهادی در ناحیه‌بندی تصاویر و طبقه‌بندی نواحی تصاویر است. الگوریتم پیشنهادی، صحت 97.5% را برای طبقه‌بندی نواحی تصاویر فراهم کرده است.

کلیدواژه‌ها


عنوان مقاله [English]

Page Layout Analysis of the Document Image Based on the Region Classification in a Decision Hierarchical Structure

نویسنده [English]

  • Hossein Pourghassem
Assistant Professor/Islamic Azad University, Najaf Abad Branch
چکیده [English]

The conversion of document image to its electronic version is a very important problem in the saving, searching and retrieval application in the official automation system. For this purpose, analysis of the document image is necessary. In this paper, a hierarchical classification structure based on a two-stage segmentation algorithm is proposed. In this structure, image is segmented using the proposed two-stage segmentation algorithm. Then, the type of the image regions such as document and non-document image is determined using multiple classifiers in the hierarchical classification structure. The proposed segmentation algorithm uses two algorithms based on wavelet transform and thresholding. Texture features such as correlation, homogeneity and entropy that extracted from co-occurrenc matrix and also two new features based on wavelet transform are used to classifiy and lable the regions of the image. The hierarchical classifier is consisted of two Multilayer Perceptron (MLP) classifiers and a Support Vector Machine (SVM) classifier. The proposed algorithm is evaluated on a database consisting of document and non-document images that provides from Internet. The experimental results show the efficiency of the proposed approach in the region segmentation and classification. The proposed algorithm provides accuracy rate of 97.5% on classification of the regions.

کلیدواژه‌ها [English]

  • Page layout analysis
  • document image
  • Hierarchical structure
  • texture features