بسم الله الرحمن الرحيم
تعتبر الرموز المميزة (Tokenizers) الأدوات الأساسية التي تمكن الذكاء الاصطناعي من تشريح وتفسير اللغة البشرية. دعونا نلقي نظرة على كيفية مساعدة الرموز المميزة لأنظمة الذكاء الاصطناعي على فهم اللغة ومعالجتها.
في عالم معالجة اللغات الطبيعية (NLP) سريع التطور، تلعب الرموز المميزة دورًا محوريًا. لذلك يعتبر صانعي الرموز المميزة هم الأبطال المجهولون خلف الكواليس، فهم يفهمون اللغة البشرية لكي تفهمها الآلات. فالآن دعونا نتعمق في ماهية الرموز المميزة ونستكشف حالات استخدامها. وسنشرح أيضًا علاقتها بالشركة الرائدة في مجال الذكاء الاصطناعي Huggingface، وهي منصة رائدة أيضًا في معالجة اللغة الطبيعية، (يمكنك متابعة الشروحات عنها هنا). سنتعرف أيضًا على مثال بسيط للتعليمات البرمجية باستخدام مكتبة Huggingface Tokenizer.
ما هي الرموز المميزة؟
تخيل أنك تحاول تعليم الروبوت فهم اللغات البشرية والتحدث بها. التحدي الأول الذي ستواجهه هو كيفية تقسيم اللغة إلى أجزاء يستطيع الروبوت هضمها. هذا هو المكان الذي تأتي فيه الرموز المميزة. فهي تقوم بتشريح اللغة المعقدة إلى أجزاء يمكن التحكم فيها، وتحويل النص الخام إلى نموذج منظم يمكن لنماذج الذكاء الاصطناعي معالجته بسهولة. تعتبر هذه الخطوة التي تبدو بسيطة أمرًا بالغ الأهمية، فهي تمكن الآلات من فهم الفروق الدقيقة في التواصل البشري.
فكر في الرموز المميزة مثل الطهاة الذين يقومون بتقطيع المكونات قبل طهي الوجبة. بدون هذه الخطوة، سيكون تحضير الأطباق المعقدة (أو فهم الجمل المعقدة) أصعب بكثير. فمن خلال الترميز، يمكن لأنظمة الذكاء الاصطناعي التعرف على الأنماط، وفهم السياق، وتوليد استجابات تشبه بشكل متزايد التفاعل البشري.
نتيجة لذلك، من خلال تحليل تعقيدات اللغة إلى أجزاء قابلة للهضم، لا تعمل الرموز المميزة على تعزيز القدرات اللغوية للذكاء الاصطناعي فحسب، بل تمهد الطريق أيضًا لنماذج تعلم آلي أكثر سهولة وكفاءة ودقة.
فكر في الرموز المميزة مثل الطهاة الذين يقومون بتقطيع المكونات قبل طهي الوجبة. بدون هذه الخطوة، سيكون تحضير الأطباق المعقدة (أو فهم الجمل المعقدة) أصعب بكثير. فمن خلال الترميز، يمكن لأنظمة الذكاء الاصطناعي التعرف على الأنماط، وفهم السياق، وتوليد استجابات تشبه بشكل متزايد التفاعل البشري.
نتيجة لذلك، من خلال تحليل تعقيدات اللغة إلى أجزاء قابلة للهضم، لا تعمل الرموز المميزة على تعزيز القدرات اللغوية للذكاء الاصطناعي فحسب، بل تمهد الطريق أيضًا لنماذج تعلم آلي أكثر سهولة وكفاءة ودقة.
ما هي الرموز المميزة لـ HuggingFace
كما ذكرًا مسبقًا، Huggingface هي شركة رائدة في مجال الذكاء الاصطناعي ومعالجة اللغة الطبيعية. بالإضافة الى ذلك يشتهرون بمكتبة Transformers الخاصة بهم، والتي جعلت من السهل الوصول إلى نماذج معالجة اللغة الطبيعية (NLP) الحديثة. تقع مكتبة الرموز المميزة في قلب ابتكاراتهم، وهي أداة قوية مصممة لتحويل النص إلى تنسيق يمكن لنماذج الذكاء الاصطناعي فهمه. هذه المكتبة ضرورية للمطورين والباحثين العاملين في مشاريع الذكاء الاصطناعي.
لا تعد أدوات الرموز المميزة الخاصة بـ Hugging Face فعالة وسريعة فحسب، ولكنها تدعم أيضًا مجموعة واسعة من اللغات، مما يجعلها أدوات متعددة الاستخدامات لمهام البرمجة اللغوية العصبية (NLP) العالمية. لقد تم تحسينها من أجل الأداء، مما يضمن قدرتها على التعامل مع كميات كبيرة من النص دون المساس بالسرعة أو الدقة. وما يميز رموز Hugging Face عن غيرها هو تكاملها مع مكتبة Transformers، وهي حجر الزاوية الآخر في النظام البيئي للذكاء الاصطناعي في Hugging Face.
يسمح هذا التكامل بالمعالجة السلسة للبيانات النصية، وإعدادها للمهام المعقدة مثل الترجمة والتلخيص وتحليل المشاعر. لذلك يتم تحديث مكتبة الرموز المميزة باستمرار، وتتضمن أحدث نتائج الأبحاث وتعليقات المجتمع لتعزيز قدراتها.
لا تعد أدوات الرموز المميزة الخاصة بـ Hugging Face فعالة وسريعة فحسب، ولكنها تدعم أيضًا مجموعة واسعة من اللغات، مما يجعلها أدوات متعددة الاستخدامات لمهام البرمجة اللغوية العصبية (NLP) العالمية. لقد تم تحسينها من أجل الأداء، مما يضمن قدرتها على التعامل مع كميات كبيرة من النص دون المساس بالسرعة أو الدقة. وما يميز رموز Hugging Face عن غيرها هو تكاملها مع مكتبة Transformers، وهي حجر الزاوية الآخر في النظام البيئي للذكاء الاصطناعي في Hugging Face.
يسمح هذا التكامل بالمعالجة السلسة للبيانات النصية، وإعدادها للمهام المعقدة مثل الترجمة والتلخيص وتحليل المشاعر. لذلك يتم تحديث مكتبة الرموز المميزة باستمرار، وتتضمن أحدث نتائج الأبحاث وتعليقات المجتمع لتعزيز قدراتها.
مثال رمزي بسيط لمكتبة Huggingface للرموز المميزة
دعونا نتسخ أيدينا ببعض التعليمات البرمجية. سنستخدم مكتبة Huggingface Tokenizer لترميز جملة بسيطة. ولكن أولاً، لنقم بتثبيت مكتبة Huggingface Transformers. (استخدم ! قبل الأمر إذا كنت تقوم بتثبيته ف Google Collab notebook).
أولاً، لنستورد فئة AutoTokenizer من مكتبة Transformers. AutoTokenizer هي فئة مصنع يمكنها تلقائيًا تحميل الرمز المميز المتوافق مع النموذج الذي تم تدريبه مسبقًا والذي نحدده (في هذه الحالة، نموذج bert-base-uncase).
بعد ذلك، نقوم بإنشاء مثيل لفئة AutoTokenizer عن طريق استدعاء الأسلوب from_pretrained. تم تصميم هذا الرمز المميز للعمل مع نموذج BERT وتم تكوينه بحيث لا يفرق بين الأحرف الكبيرة والصغيرة.
الآن دعونا نعلن عن سلسلة للترميز.
دعونا نستخدم طريقة tokenize للرمز المميز مع النص النموذجي كوسيطة له.
تقوم طريقة الرمز المميز بتقسيم نص الإدخال إلى قائمة من الرموز المميزة أو الكلمات/الكلمات الفرعية التي تم تدريب النموذج المُدرب عليها مسبقًا. بالنسبة لنماذج مثل BERT، قد يتم تقسيم الكلمات إلى وحدات أصغر (كلمات فرعية أو أحرف) للتعامل مع الكلمات خارج المفردات بشكل أكثر فعالية. أيضًا، سنقوم بتحويل قائمة الرموز المميزة إلى قائمة الأعداد الصحيحة (معرفات الرموز المميزة). يتوافق كل عدد صحيح مع رمز مميز محدد في مفردات أداة الرمز المميز.
يعد هذا التحويل ضروريًا لأن نماذج التعلم الآلي لا تفهم النص مباشرةً؛ إنهم يعملون مع البيانات الرقمية.
لقد إنتهينا. دعونا نطبع كلاً من الرموز المميزة والمعرفات المقابلة لها.
لذلك يقوم هذا الجزء من التعليمات البرمجية بتحميل رمز مميز تم تدريبه مسبقًا لنموذج BERT، ويقوم بترميز جملة عينة وتحويل تلك الرموز المميزة إلى معرفاتها المقابلة. هذه المعرفات هي ما تعالجه نماذج التعلم الآلي. وهنا الرد:
تعتبر هذه الرموز المميزة ومعرفات الرموز المميزة ضرورية لتدريب نماذج التعلم الآلي. فهي تحول النص إلى تنسيق رقمي يمكن للنماذج معالجته، مما يتيح فهم الفروق الدقيقة في اللغة. الرموز المميزة مثل
تشير البادئة
Python:
pip install transformers
Python:
from transformers import AutoTokenizer
كود:
tokenizer=AutoTokenizer.from_pretrained("bert-base-uncased")
Python:
text = "مرحبا، أهلا بك في عالم الرموز المميزة في منتدى انكور التطويري"
Python:
tokens = tokenizer.tokenize(text)
يعد هذا التحويل ضروريًا لأن نماذج التعلم الآلي لا تفهم النص مباشرةً؛ إنهم يعملون مع البيانات الرقمية.
Python:
token_ids = tokenizer.convert_tokens_to_ids(tokens)
Python:
print("Tokens:", tokens)
print("Token IDs:", token_ids)
Python:
Tokens: ['مرحبا', 'اهلا', 'بك', 'في', 'عالم', 'الرموز', 'المميزة', 'في', 'منتدى', 'انكور', 'التطويري',, '##izer', '##s']
Token IDs: [7592, 1010, 1998, 6160, 2000, 1996, 2088, 1997, 19204, 17629, 2015]
##izer
و ##s
هي أمثلة على كيفية تعامل الرمز المميز مع الكلمات أو أجزاء من الكلمات التي قد لا تكون موجودة في مفرداته الأساسية.تشير البادئة
##
إلى أن هذه وحدات كلمات فرعية أو لاحقات ملحقة بالرمز المميز السابق بدون مسافة. وهذا يسمح للنموذج بالتعامل مع مجموعة واسعة من المفردات، بما في ذلك الكلمات الجديدة أو غير الشائعة، عن طريق تقسيمها إلى مكونات فرعية معروفة.في الختام
تعتبر الرموز المميزة أساسية في معالجة اللغة الطبيعية، وتوفر مكتبة Huggingface Transformers مجموعة أدوات شاملة للعمل معها. من خلال فهم واستخدام الرموز المميزة، يمكننا سد الفجوة بين اللغة البشرية وفهم الآلة، وفتح مجموعة واسعة من التطبيقات في الذكاء الاصطناعي. سواء كنت مطورًا متمرسًا أو جديدًا في معالجة اللغة الطبيعية (NLP)، فإن الغوص في أساليب الترميز يعد طريقة رائعة لتعزيز مهارات التعلم الآلي لديك.