การประมวลผลภาษาธรรมชาติ หรือ Natural Language Processing (NLP) คือ หนึ่งในสาขาของวิทยาศาสตร์คอมพิวเตอร์ ที่เกี่ยวกับปัญญาประดิษฐ์ Artificial Intelligence และภาษาศาสตร์คอมพิวเตอร์ Computational Linguistics เป็นศาสตร์ที่ศึกษาเกี่ยวกับการทำให้คอมพิวเตอร์สามารถสื่อสารโต้ตอบด้วยภาษาของมนุษย์ และทำให้คอมพิวเตอร์เข้าใจภาษามนุษย์มากขึ้น ตัวอย่าง เช่น Siri, Google Assistant และ Alexa
ในการศึกษาเกี่ยวกับ NLP จะมีคำศัพท์ที่เกี่ยวข้องหลายคำ ตัวอย่างเช่น
Information Extraction
Information Extraction คือ กระบวนการสกัด ข้อมูลที่มีโครงสร้างที่ต้องการ ออกมาจากแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยอัตโนมัติ ตัวอย่างเช่น กระบวนการดึงข้อมูล ชื่อ ที่อยู่ เบอร์โทรศัพท์ ออกจากหน้าเว็บไซต์
Named Entity Recognition (NER)
Named Entity Recognition (NER) คือ กระบวนการในการหาตำแหน่ง และจัดหมวดหมู่ของกลุ่มคำ ที่อยู่ในเอกสาร เช่น ชื่อคน ชื่อองค์กร สถานที่ จำนวนเงิน
Corpus หรือ Corpora
Corpus คือ เอกสารตัวอย่างที่รวบรวมไว้ เพื่อเอาไว้เป็นข้อมูลในการอนุมาน และตรวจสอบความสมเหตุสมผลของกฏเกณฑ์ทางภาษาศาสตร์ และการวิเคราะห์ทางสถิติ
Corpus โดยส่วนมากจะมีขนาดใหญ่ครอบคลุมเนื้อหาที่เกี่ยวข้อง
Text Classification
Text Classification คือ การจัดแบ่งประเภทของเอกสาร เช่น อีเมล์ รีวิวสินค้า ข้อความในแชท ให้อยู่ในหมวดหมู่ที่กำหนด โดยหนึ่งเอกสารอาจจะอยู่มากกว่าหนึ่งหมวดก็ได้ ตัวอย่างหมวดหมู่เช่น อีเมล์ดี หรือ อีเมล์ขยะ, คะแนนรีวิวดี กลาง ต่ำ แย่, ภาษาในแชทนั้นคือภาษาอะไร การทำ Text Classification สามารถใช้หลากหลายวิธีการ วิธีที่นิยมในปัจจุบันจะใช้ Machine Learning
Tokenization
Token มักหมายถึงคำรายคำที่เป็นเอกเทศ และ Tokenization คือ การนำข้อความยาว ๆ มาแตกออกเป็น คำ ๆ เป็น Token โดย Token เหล่านี้มักจะถูกนำไปใช้งานวิเคราะห์ทางภาษาอื่น ๆ ต่อไป เช่น Parsing
Parsing
Parsing คือ กระบวนการในการระบุโครงสร้างของข้อความ โดยการวิเคราะห์คำที่เป็นส่วนประกอบ ด้วยหลักไวยากรณ์ของภาษา ผลลัพธ์ที่ได้ออกมาจะเป็นโครงสร้างแบบต้นไม้ เรียกว่า Parse Tree
Term Frequency (TF)
Term Frequency (TF) คือ การแสดงความถี่ของคำต่าง ๆ ที่ปรากฎในเอกสาร จำนวนครั้งที่ปรากฎของคำบ่งบอกถึงความหมายและสำคัญของคำนั้น ๆ ต่อเอกสารโดยรวม Term Frequency มักถูกอ้างถึงบ่อยครั้งในบริบทของ Inverse Document Frequency (IDF)
Part of Speech (POS)
Part of Speech (POS) คือ สิ่งที่อธิบายว่า ในประโยคหนึ่ง คำ ๆ นั้นถูกใช้อย่างไร Part of Speech สามารถแบ่งได้เป็น 8 อย่างหลัก ๆ ได้แก่ คำนาม nouns, คำสรรพนาม pronouns, คำคุณศัพท์ adjectives, คำกริยา verbs, คำกริยาวิเศษณ์ adverbs, คำบุพบท prepositions, คำสันธาน conjunctions และ คำอุทาน interjections Part of Speech ส่วนใหญ่จะถูกแบ่งแยกย่อยละเอียดลงไปอีก POS Tagging คือการติดฉลากให้กับคำด้วย Part of Speech ที่เหมาะสม
Spelling Correction
การตรวจสอบการสะกด Spell Checker รวมไปถึงแก้ไขคำสะกดผิด Spell Correction โดยดูจากบริบทคำแวดล้อม Spell Checker ทำงานชี้ไปยังตำแหน่งที่สะกดผิด ซึ่งการสะกดผิดมีได้หลายระดับ เช่น พิมพ์ผิดเป็นคำที่ไม่มีอยู่ในพจนานุกรม, พิมพ์ผิดคำ, คำพ้องเสียง, คำสแลง หรือ ตั้งใจพิมพ์ผิด
Sentiment Analysis
Sentiment Analysis คือ การใช้เทคนิค NLP ในการคัดลอกข้อมูลความคิดเห็น จากข้อความ เช่นว่าผู้แต่งจะเขียนโดยใส่ความคิดเห็นส่วนตัว หรือเขียนบนพื้นฐานความเป็นจริง หรือแม้กระทั้งเขียนในแง่บวก หรือแง่ลบ เทคนิคนี้อาจจะถูกเรียกว่า Opinion Mining
Word Sense Disambiguation
Word Sense Disambiguation คือ ความสามารถที่จะระบุความหมายของคำในทางคอมพิวเตอร์ โดยบ่อยครั้งจะมีการใช้ Corpus ภายนอก เช่น WordNet หรือ Wikipedia มาเป็นตัวอ้างอิงไขว้ ตัวอย่างเช่น การพัฒนาอัลกอริทึมที่ระบุว่า คำว่า แอปเปิล ในข้อความนั้นอ้างถึง บริษัท หรือ ผลไม้
N-Gram
N-Gram คือ หนึ่งในโมเดล NLP ที่นิยมใช้กันมากที่สุด N-Gram คือ ลำดับของคำต่อเนื่องกัน จำนวน N คำ จากชุดข้อความ เพื่อนำมาเป็นข้อมูลสถิติ เช่น วิเคราะห์ ความถี่ ความสัมพันธ์ระหว่างคำ โอกาสความน่าจะเป็น และพยากรณ์คำต่อไป
Bag of Words (BOW)
โมเดลที่ใช้กันแพร่หลายในงานจัดแบ่งประเภทข้อความ Text Classification ในโมเดลของ BOW กลุ่มของคำจะถูกอธิบายด้วยกระเป๋าคำ Bag of words หรือกลุ่มรวมของคำ โดยไม่ได้คำนึงถึงหลักไวยากรณ์ ความถี่ที่พบ และลำดับของคำ โดยนำมาใช้เป็น Feature ในการเทรนตัวจัดแบ่งข้อความ Classifier
Machine Translation (MT)
Machine Translation (MT) คือ การแปลข้อความจากภาษาหนึ่งไปยังอีกภาษาหนึ่งด้วยเครื่องจักร ในที่นี้คือคอมพิวเตอร์ โดยไม่มีมนุษยเข้ามาเกี่ยวข้องในกระบวนการ Machine Translation เรียกอีกชื่อหนึ่งว่า Automated Translation, Automatic Translation หรือ Instant Translation
Coreference Resolution
Coreference Resolution คือ การหานิพจน์ทั้งหมดที่อ้างถึงสิ่ง ๆ เดียวกัน ในข้อความที่กำหนด Coreference Resolution เป็นขั้นตอนเริ่มต้นสำคัญ ที่จะเกี่ยวเนื่องกับการทำความเข้าใจภาษาธรรมชาติขั้นสูง เช่น Document Summarization, Question Answering, และ Information Extraction
Explicit Semantic Analysis (ESA)
ESA ใช้ในการค้นข้อสนเทศ จัดแบ่งประเภทเอกสาร คำนวณความสัมพันธ์ของความหมาย เช่น คำสองคำ ความหมายเหมือนกันแค่ไหน ESA คือกระบวนการทำความเข้าใจความหมาย และแนวคิดของข้อความ
Latent Semantic Analysis (LSA)
Latent Semantic Analysis (LSA) กระบวนการวิเคราะห์ความสัมพันธ์ ระหว่างเอกสารต่าง ๆ กับคำศัพท์ที่อยู่ในเอกสารนั้น โดยแนวคิดที่ว่าคำที่มีความหมายใกล้เคียงกัน มักจะปรากฎอยู่ในข้อความในตำแหน่งใกล้เคียงกัน
Latent Dirichlet Allocation (LDA)
เทคนิคในการออกแบบโมเดลหัวข้อร่วม LDA ตั้งอยู่บนแนวคิดที่ว่า แต่ละเอกสาร หรือข้อความ คือส่วนผสมของหัวข้อย่อย ๆ และ แต่ละคำในเอกสารคือคุณลักษณะหนึ่งของหัวข้อนั้น ๆ