เว็บบอร์ดอันดับต้นๆ ของไทย pantip.com มีห้องสนทนาครอบคลุมในทุกหัวข้อและกระทู้ใหม่ราว 5 พันกระทู้ต่อวัน ประสานนักวิจัยมหาวิทยาลัยเกษตรศาสตร์ต่อยอดเทคโนโลยีวิเคราะห์ฐานข้อมูล (Big Data Analytics) ผนวกกับเทคโนโลยีเครื่องจักรเรียนรู้ สร้างโซลูชั่นระบบออโต้แท็ก (Auto Tag) แนะนำแท็กที่เหมาะสมให้กับผู้ตั้งกระทู้ ช่วยแก้ปัญหากระทู้ผิดห้อง เสริมสร้างบรรยากาศที่เป็นมิตรในสังคมพันทิป

ระบบออโต้แท็กผ่านการพัฒนามากว่า 3 เวอร์ชั่นในเวลา 8 เดือนกระทั่งพร้อมใช้งาน โดยมีระดับความแม่นยำเฉลี่ยของระบบอยู่ที่ ±70% ซึ่งเป็นระดับที่ยอมรับได้ในเชิงเทคนิค เมื่อเทียบกับความท้าทายของการพัฒนา ที่ขนาดข้อมูลของพันทิปมีมหาศาล มีกระทู้เกิดใหม่ 4-5 พันกระทู้ต่อวัน ในขณะเดียวกันก็ต้องรับมือกับความซับซ้อนของภาษาไทยที่มีรูปแบบที่หลากหลายอีกด้วย

วิจัยตอบโจทย์สังคมออนไลน์

ระบบแท็ก (tag) เป็นเครื่องมือในการจัดสรรกระทู้ที่สมาชิกตั้งขึ้นให้อยู่ในห้องต่างๆ ตรงกับเนื้อหาที่อยากสื่อ เป็นคีย์เวิร์ดที่จะอธิบายเนื้อความของกระทู้ โดยผู้ตั้งกระทู้จะต้องเลือกติดอย่างน้อย 1 แท็ก แต่ไม่เกิน 5 แท็ก

แต่ปัญหาที่พบคือ แท็กไม่ตรงห้องทำให้กระทู้ไปอยู่ในห้องอื่นที่ไม่เกี่ยวข้อง ผู้ตั้งก็ไม่ได้รับฟีดแบคหรือข้อมูลที่ต้องการ ผู้ใช้คนอื่นก็ไม่ชอบ ส่งผลให้บรรยากาศการใช้งานบนเว็บบอร์ดไม่ดี และเมื่อต้องมองหาทางแก้ไข พันทิปเลือกใช้เทคโนโลยีระดับสูงผ่านนักวิจัยที่มีความเชี่ยวชาญเฉพาะด้าน ก็คือ รศ.อานนท์ รุ่งสว่าง นักวิจัยห้องปฏิบัติการวิจัยวิศวกรรมสารสนเทศและความรู้ขนาดใหญ่ ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ (มก.)

นักวิจัยทดลองใช้ข้อมูลจากโซเชียลมีเดียสุดฮิตอย่างเฟซบุ๊คและทวิตเตอร์มาวิเคราะห์พฤติกรรมผู้ใช้ และจัดหมวดหมู่กลุ่มคนที่มีพฤติกรรมใกล้เคียงกัน เพื่อการต่อยอดสำหรับแนะนำสินค้าที่ตรงกับความสนใจหรือเพื่อนที่มีความสนใจเหมือนกัน จึงประยุกต์ใช้กับฐานข้อมูลขนาดใหญ่อย่างพันทิป

นักวิจัยเลือกใช้ Machine Learning ซึ่งเป็นส่วนหนึ่งของเทคโนโลยีปัญญาประดิษฐ์ ที่ให้เครื่องจักรเรียนข้อมูลจากฐานข้อมูลที่มีของพันทิป เพื่อสกัดและเรียนรู้กระบวนการหรือพฤติกรรมผู้ใช้เว็บบอร์ด ตั้งแต่วิธีการตั้งกระทู้ ภาษาที่ใช้ตั้งกระทู้และติดแท็ก จากนั้นวางกรอบการเรียนรู้ให้สามารถประมวลข้อมูล หาแท็กศูนย์กลาง แล้วจึงคัดสรรแท็กที่เหมาะกับเนื้อหาในกระทู้นั้นมาแนะนำให้ผู้ตั้งกระทู้

“เราลองผิดลองถูกหาวิธีประมวลผลจนได้วิธีที่ดีที่สุดคือ โมเดลเวคเตอร์สเปซ โดยใช้เวคเตอร์ที่บ่งชี้ข้อมูลที่ไปในทิศทางเดียวกัน และจับกลุ่มตามข้อมูลแท็กที่พันทิปมีอยู่ ดังนั้น เมื่อผู้ใช้พันทิปจะตั้งกระทู้ โดยเขียนชื่อกระทู้และเนื้อหาที่จะลงเรียบร้อยแล้ว ระบบจะประมวลข้อมูลจากเนื้อหาเหล่านั้น และประมวลผลออกมาเป็นแท็กที่มีความเหมาะสม และเกี่ยวข้องกับเนื้อหาภายในเวลาที่รวดเร็วระดับมิลลิวินาที” รศ.อานนท์อธิบาย

นวัตกรรมเพื่อการใช้งาน

“ระบบออโต้แท็กเป็นเพียงการแนะนำแท็กที่เกี่ยวข้องเท่านั้น ยังคงเปิดโอกาสให้ผู้ใช้สามารถเลือกติดแท็กที่ตรงกับเจตนาของตน อาทิ สูตรอาหารที่แม้จะเกี่ยวกับอาหาร แต่ผู้ตั้งกระทู้อาจอยากทราบกระบวนการทางวิทยาศาสตร์ที่ทำให้รสชาติออกมาเป็นแบบนั้น แต่หากผู้ใช้เกิดติดแท็กที่ต่างไปจากที่ระบบแนะนำ ตัวระบบจะส่งข้อมูลไปยังผู้ดูแลระบบเพื่อตรวจสอบอีกครั้ง” นักวิจัยกล่าว

โครงการนี้ถือเป็นความสำเร็จของการพัฒนานวัตกรรมที่เป็นความร่วมมือระหว่างภาคเอกชนกับภาควิชาการ ที่นอกเหนือจากการส่งต่อความรู้สู่การใช้ประโยชน์จริง รศ.อานนท์ กล่าวว่า ถือเป็นโอกาสดีสำหรับทีมพัฒนาที่มีโอกาสได้ใช้ฐานข้อมูลขนาดใหญ่และสดใหม่ จากกระทู้ที่เกิดขึ้นใหม่ทุกวันของพันทิป สร้างประสบการณ์ที่มากกว่าการทำงานในห้องปฏิบัติการ

จากความสำเร็จดังกล่าว ทำให้ทั้งสองภาคส่วนนี้ยังมีโครงการความร่วมมือต่อยอดอีกหลายโครงการ เช่น การวิเคราะห์อารมณ์หรืออุณหภูมิของการใช้งานเว็บบอร์ดทั้งกระทู้ ความคิดเห็น ฯลฯ เพื่อความปลอดภัยและบรรยากาศของสังคมพันทิปอีกด้วย

ที่มา http://eureka.bangkokbiznews.com/detail/634048#sthash.V74BHw8Y.dpuf