طبقه‌بندی معنایی تصاویر متنی مبتنی بر الگوی ارزشمندی متن

نوع مقاله: مقاله پژوهشی

نویسندگان

1 استادیار /دانشگاه آزاد اسلامی واحد نجف‌آباد

2 استادیار /دانشگاه صنعتی شیراز

3 استادیار /دانشگاه صنعتی سهند تبریز

چکیده

استخراج اطلاعات از تصاویر متنی شناسایی شده از مجرای اینترنت یکی از مهمترین معضلات سیستم‌های جمع‌آوری اطلاعاتی در حوزه تکنولوژی اطلاعات می‌باشد. این مسأله وقتی حادتر می‌گردد که بدانیم در بین انبوه تصاویر متنی تنها درصد ناچیزی از تصاویر متنی شناسایی شده، دارای ارزش اطلاعاتی می‌باشند. در این مقاله، جهت تجزیه‌ و تحلیل تصاویر متنی و دسترسی به محتوای آنها، از یک روش طبقه‌بندی مبتنی بر ناحیه‌بندی تصویر استفاده شده است. در این الگوریتم به کمک یک روش ناحیه‌بندی دو‌مرحله‌ای، نواحی تصویر شناسایی شده، سپس به کمک یک ساختار سلسله‌مراتبی طبقه‌بندی، نوع ناحیه از لحاظ متنی یا عکسی (غیر‌متنی) بودن مشخص می‌گردد. در ادامه با تعریف با‌ارزش بودن متن یک تصویر متنی، سعی می‌شود تصویر متنی در یکی از دو گروه معنایی با‌ارزش و بی‌ارزش دسته‌بندی گردد. الگوریتم پیشنهادی بر روی یک پایگاه داده تصاویر متنی و غیرمتنی که از تصاویر موجود در اینترنت فراهم شده است، مورد‌ارزیابی قرار می‌گیرد. نتایج آزمایشها بیانگر کارایی روش پیشنهادی در طبقه‌بندی معنایی تصاویر براساس تعریف کاربر از با‌ارزش و بی‌ارزش بودن تصاویر متنی است. الگوریتم پیشنهادی، صحت طبقه‌بندی %98.8 برای طبقه‌بندی تصاویر متنی با‌ارزش از بی‌ارزش را فراهم کرده است.

کلیدواژه‌ها


عنوان مقاله [English]

Semantic Document Image Classification Based on Valuable Text Pattern

نویسندگان [English]

  • Hossein Pourghassem 1
  • Mohammad sadegh Helforoush 2
  • Sabalan Daneshvar 3
1 Assistant Professor/Islamic Azad University - Najafabad Branch
2 Assistant Professor/ Shiraz University of Technology
3 Assistant Professor/Sahand University of Technology – Tabriz
چکیده [English]

Knowledge extraction from detected document image is a complex problem in the field of information technology. This problem becomes more intricate when we know, a negligible percentage of the detected document images are valuable. In this paper, a segmentation-based classification algorithm is used to analysis the document image. In this algorithm, using a two-stage segmentation approach, regions of the image are detected, and then classified to document and non-document (pure region) regions in the hierarchical classification. In this paper, a novel valuable definition is proposed to classify document image in to valuable or invaluable categories. The proposed algorithm is evaluated on a database consisting of the document and non-document image that provide from Internet. Experimental results show the efficiency of the proposed algorithm in the semantic document image classification. The proposed algorithm provides accuracy rate of 98.8% for valuable and invaluable document image classification problem.       

کلیدواژه‌ها [English]

  • semantic classification
  • document and non-document images
  • information valuable