การประมวลผลภาษาธรรมชาติ หรือ Natural Language Processing (NLP) คือ หนึ่งในสาขาของวิทยาศาสตร์คอมพิวเตอร์ ที่เกี่ยวกับปัญญาประดิษฐ์ Artificial Intelligence และภาษาศาสตร์คอมพิวเตอร์ Computational Linguistics เป็นศาสตร์ที่ศึกษาเกี่ยวกับการทำให้คอมพิวเตอร์สามารถสื่อสารโต้ตอบด้วยภาษาของมนุษย์ และทำให้คอมพิวเตอร์เข้าใจภาษามนุษย์มากขึ้น ตัวอย่าง เช่น Siri, Google Assistant และ Alexa

ในการศึกษาเกี่ยวกับ NLP จะมีคำศัพท์ที่เกี่ยวข้องหลายคำ ตัวอย่างเช่น

A picture of the Rosetta Stone, in a high contrast, readable format. Credit https://commons.wikimedia.org/wiki/File:Rosetta_Stone_BW.jpeg
A picture of the Rosetta Stone, in a high contrast, readable format. Credit https://commons.wikimedia.org/wiki/File:Rosetta_Stone_BW.jpeg

Information Extraction

Information Extraction คือ กระบวนการสกัด ข้อมูลที่มีโครงสร้างที่ต้องการ ออกมาจากแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยอัตโนมัติ ตัวอย่างเช่น กระบวนการดึงข้อมูล ชื่อ ที่อยู่ เบอร์โทรศัพท์ ออกจากหน้าเว็บไซต์

Named Entity Recognition (NER)

Named Entity Recognition (NER) คือ กระบวนการในการหาตำแหน่ง และจัดหมวดหมู่ของกลุ่มคำ ที่อยู่ในเอกสาร เช่น ชื่อคน ชื่อองค์กร สถานที่ จำนวนเงิน

Corpus หรือ Corpora

Corpus คือ เอกสารตัวอย่างที่รวบรวมไว้ เพื่อเอาไว้เป็นข้อมูลในการอนุมาน และตรวจสอบความสมเหตุสมผลของกฏเกณฑ์ทางภาษาศาสตร์ และการวิเคราะห์ทางสถิติ

Corpus โดยส่วนมากจะมีขนาดใหญ่ครอบคลุมเนื้อหาที่เกี่ยวข้อง

Text Classification

Text Classification คือ การจัดแบ่งประเภทของเอกสาร เช่น อีเมล์ รีวิวสินค้า ข้อความในแชท ให้อยู่ในหมวดหมู่ที่กำหนด โดยหนึ่งเอกสารอาจจะอยู่มากกว่าหนึ่งหมวดก็ได้ ตัวอย่างหมวดหมู่เช่น อีเมล์ดี หรือ อีเมล์ขยะ, คะแนนรีวิวดี กลาง ต่ำ แย่, ภาษาในแชทนั้นคือภาษาอะไร การทำ Text Classification สามารถใช้หลากหลายวิธีการ วิธีที่นิยมในปัจจุบันจะใช้ Machine Learning

Tokenization

Token มักหมายถึงคำรายคำที่เป็นเอกเทศ และ Tokenization คือ การนำข้อความยาว ๆ มาแตกออกเป็น คำ ๆ เป็น Token โดย Token เหล่านี้มักจะถูกนำไปใช้งานวิเคราะห์ทางภาษาอื่น ๆ ต่อไป เช่น Parsing

Parsing

Parsing คือ กระบวนการในการระบุโครงสร้างของข้อความ โดยการวิเคราะห์คำที่เป็นส่วนประกอบ ด้วยหลักไวยากรณ์ของภาษา ผลลัพธ์ที่ได้ออกมาจะเป็นโครงสร้างแบบต้นไม้ เรียกว่า Parse Tree

Term Frequency (TF)

Term Frequency (TF) คือ การแสดงความถี่ของคำต่าง ๆ ที่ปรากฎในเอกสาร จำนวนครั้งที่ปรากฎของคำบ่งบอกถึงความหมายและสำคัญของคำนั้น ๆ ต่อเอกสารโดยรวม Term Frequency มักถูกอ้างถึงบ่อยครั้งในบริบทของ Inverse Document Frequency (IDF)

Part of Speech (POS)

Part of Speech (POS) คือ สิ่งที่อธิบายว่า ในประโยคหนึ่ง คำ ๆ นั้นถูกใช้อย่างไร Part of Speech สามารถแบ่งได้เป็น 8 อย่างหลัก ๆ ได้แก่ คำนาม nouns, คำสรรพนาม pronouns, คำคุณศัพท์ adjectives, คำกริยา verbs, คำกริยาวิเศษณ์ adverbs, คำบุพบท prepositions, คำสันธาน conjunctions และ คำอุทาน interjections Part of Speech ส่วนใหญ่จะถูกแบ่งแยกย่อยละเอียดลงไปอีก POS Tagging คือการติดฉลากให้กับคำด้วย Part of Speech ที่เหมาะสม

Spelling Correction

การตรวจสอบการสะกด Spell Checker รวมไปถึงแก้ไขคำสะกดผิด Spell Correction โดยดูจากบริบทคำแวดล้อม Spell Checker ทำงานชี้ไปยังตำแหน่งที่สะกดผิด ซึ่งการสะกดผิดมีได้หลายระดับ เช่น พิมพ์ผิดเป็นคำที่ไม่มีอยู่ในพจนานุกรม, พิมพ์ผิดคำ, คำพ้องเสียง, คำสแลง หรือ ตั้งใจพิมพ์ผิด

Sentiment Analysis

Sentiment Analysis คือ การใช้เทคนิค NLP ในการคัดลอกข้อมูลความคิดเห็น จากข้อความ เช่นว่าผู้แต่งจะเขียนโดยใส่ความคิดเห็นส่วนตัว หรือเขียนบนพื้นฐานความเป็นจริง หรือแม้กระทั้งเขียนในแง่บวก หรือแง่ลบ เทคนิคนี้อาจจะถูกเรียกว่า Opinion Mining

Word Sense Disambiguation

Word Sense Disambiguation คือ ความสามารถที่จะระบุความหมายของคำในทางคอมพิวเตอร์ โดยบ่อยครั้งจะมีการใช้ Corpus ภายนอก เช่น WordNet หรือ Wikipedia มาเป็นตัวอ้างอิงไขว้ ตัวอย่างเช่น การพัฒนาอัลกอริทึมที่ระบุว่า คำว่า แอปเปิล ในข้อความนั้นอ้างถึง บริษัท หรือ ผลไม้

N-Gram

N-Gram คือ หนึ่งในโมเดล NLP ที่นิยมใช้กันมากที่สุด N-Gram คือ ลำดับของคำต่อเนื่องกัน จำนวน N คำ จากชุดข้อความ เพื่อนำมาเป็นข้อมูลสถิติ เช่น วิเคราะห์ ความถี่ ความสัมพันธ์ระหว่างคำ โอกาสความน่าจะเป็น และพยากรณ์คำต่อไป

Bag of Words (BOW)

โมเดลที่ใช้กันแพร่หลายในงานจัดแบ่งประเภทข้อความ Text Classification ในโมเดลของ BOW กลุ่มของคำจะถูกอธิบายด้วยกระเป๋าคำ Bag of words หรือกลุ่มรวมของคำ โดยไม่ได้คำนึงถึงหลักไวยากรณ์ ความถี่ที่พบ และลำดับของคำ โดยนำมาใช้เป็น Feature ในการเทรนตัวจัดแบ่งข้อความ Classifier

Machine Translation (MT)

Machine Translation (MT) คือ การแปลข้อความจากภาษาหนึ่งไปยังอีกภาษาหนึ่งด้วยเครื่องจักร ในที่นี้คือคอมพิวเตอร์ โดยไม่มีมนุษยเข้ามาเกี่ยวข้องในกระบวนการ Machine Translation เรียกอีกชื่อหนึ่งว่า Automated Translation, Automatic Translation หรือ Instant Translation

Coreference Resolution

Coreference Resolution คือ การหานิพจน์ทั้งหมดที่อ้างถึงสิ่ง ๆ เดียวกัน ในข้อความที่กำหนด Coreference Resolution เป็นขั้นตอนเริ่มต้นสำคัญ ที่จะเกี่ยวเนื่องกับการทำความเข้าใจภาษาธรรมชาติขั้นสูง เช่น Document Summarization, Question Answering, และ Information Extraction

Explicit Semantic Analysis (ESA)

ESA ใช้ในการค้นข้อสนเทศ จัดแบ่งประเภทเอกสาร คำนวณความสัมพันธ์ของความหมาย เช่น คำสองคำ ความหมายเหมือนกันแค่ไหน ESA คือกระบวนการทำความเข้าใจความหมาย และแนวคิดของข้อความ

Latent Semantic Analysis (LSA)

Latent Semantic Analysis (LSA) กระบวนการวิเคราะห์ความสัมพันธ์ ระหว่างเอกสารต่าง ๆ กับคำศัพท์ที่อยู่ในเอกสารนั้น โดยแนวคิดที่ว่าคำที่มีความหมายใกล้เคียงกัน มักจะปรากฎอยู่ในข้อความในตำแหน่งใกล้เคียงกัน

Latent Dirichlet Allocation (LDA)

เทคนิคในการออกแบบโมเดลหัวข้อร่วม LDA ตั้งอยู่บนแนวคิดที่ว่า แต่ละเอกสาร หรือข้อความ คือส่วนผสมของหัวข้อย่อย ๆ และ แต่ละคำในเอกสารคือคุณลักษณะหนึ่งของหัวข้อนั้น ๆ

แชร์ให้เพื่อน:

Surapong Kanoktipsatharporn on Linkedin
Surapong Kanoktipsatharporn
CTO at Bua Labs
The ultimate test of your knowledge is your capacity to convey it to another.

Published by Surapong Kanoktipsatharporn

The ultimate test of your knowledge is your capacity to convey it to another.