ในปัจจุบัน  เทคโนโลยีการประมวลผลภาษาธรรมชาติได้ถูกนำมาใช้ประโยชน์ในการวิเคราะห์และจัดการภาษาอย่างกว้างขวาง ในการประมลวผลภาษานั้น เราจำเป็นต้องมีคลังข้อมูลภาษาขนาดใหญ่เพื่อทรัพยากรที่สำคัญในการวิเคราะห์และจัดการภาษาด้วยวิธีการทางสถิติ

ในต่างประเทศมีการจัดสร้างคลังข้อมูลภาษาขนาดใหญ่แล้ว เช่น  British National Corpus (100 ล้านคำ แล้วเสร็จในปี ค.ศ.1994 ),  The Bank of English (มากกว่า 450 ล้านคำ), American National Corpus (มากกว่า 22 ล้านคำ), Czech National Corpus,  Hellenic National Corpus (คลังข้อมูลภาษากรีก มากกว่า 34 ล้านคำ), National Corpus of Irish (30 ล้านคำ1999), Hungarian National Corpus (มากกว่า 150ล้านคำ), Slovak National Corpus (30 ล้านคำในปัจจุบัน), Croatian National Corpus เป็นต้น คลังข้อมูลภาษาเหล่านี้ถูกนำมาใช้ในงานต่างๆ อาทิ  การจัดทำพจนานุกรม เช่น Collin Cobuild Dictionary, Longman Dictionary of Contemporary English, Oxford Dictionary เป็นต้น นอกจากนี้ยังถูกใช้ในการศึกษาวิจัยทางภาษาศาสตร์ได้อีกมากมาย สำหรับคลังข้อความข่าวภาษาไทยสำหรับการนำไปใช้ในงานด้านการประมวลผลภาษาธรรมชาตินั้น ปัจจุบันยังมีน้อยมาก คลังข้อความภาษาไทยที่ได้รับการใช้งานและเป็นที่รู้จักมากคือ คลังข้อความภาษาไทยชื่อ Orchid Corpus [1, 2] โดยคลังข้อความภาษาไทยนี้ถูกสร้างใน 1997 มีขนาด 4 แสนกว่าคำ และมีการกำกับชนิดของคำหรือ POS (part of speech) ไว้ทุกคำ (กำกับเฉพาะคำภาษาไทย ไม่กำกับคำภาษาอังกฤษ) รวมทั้งการกำกับย่อหน้าและขอบเขตของประโยคในแต่ละเอกสาร นอกจากนี้คลังข้อความที่รู้จักกัน คือคลังข้อความของทางมหาวิทยาลัยเกษตรศาสตร์ชื่อ NaiST Corpus [3]  โดยคลังข้อความนี้มี 675341 คำ (39925 ประโยค) และมีการกำกับคำ กำกับชนิดของคำ และกำกับประโยค สำหรับคลังข้อความข่าวนั้นที่มีการรวบรวมและมีการเปิดให้ใช้งานผ่านทางเว็บคือคลังข้อความข่าวของภาควิชาอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย [4] โดยคลังข้อความนี้เน้นการนำมาใช้ในการหาบริบทที่อยู่บริเวณรอบของคำที่ต้องการค้นหา โดยไม่มีการกำกับหน้าที่ของคำ นอกจากนี้ยังมีคลังข้อความคู่ภาษาหรือThai Bitext Corpus [5] ได้ถูกสร้างขึ้นจากการรวบรวมตัวอย่างของคู่ประโยคภาษาไทยและภาษาอังกฤษ ปัจจุบันมีโครงการคลังข้อมูลภาษาไทยแห่งชาติ (TNC) [6] ซึ่งประกาศของความร่วมมือผ่านทางเว็บเพื่อรวบรวมข้อความจากบุคคลทั่วไปที่อาจมีลิขสิทธิ์ติดอยู่ โดยขั้นแรกมีเป้าหมายที่ภาษาเขียนจำนวนประมาณ 80 ล้านคำ นอกจากนี้คลังข้อความทั้งห้านี้แล้ว ยังมีคลังประโยคอื่นๆที่อาจกระจัดกระจายตามมหาวิทยาลัยต่างๆโดยไม่ได้เปิดเผย อย่างไรก็ตามคลังประโยคต่างๆเหล่านี้จะมีรูปแบบการจัดเก็บ การกำหนดโครงสร้างที่แตกต่าง ขึ้นอยู่กับลักษณะของการนำไปใช้ แม้ปัจจุบันคลังข้อความจะมีการพัฒนาขึ้นมาใช้บ้างแล้ว แต่เรายังจำเป็นต้องการคลังข้อความเพิ่มขึ้นอีกมาก เนื่องจากคลังข้อความต่างๆยังมีขนาดและปริมาณที่ยังไม่เพียงพอ ในด้านมาตรฐานการจัดเก็บข้อความนั้น ปัจจุบันมาตรฐานTEI (Text Encoding Initiative) และ CES (Corpus Encoding Standard) เป็นที่รู้จักกันแพร่หลาย ซึ่งการจัดเก็บคลังข้อความต่างๆจะสามารถใช้มาตรฐานกลางนี้ได้

ด้วยเหตุข้างต้นนี้ทางคณะผู้วิจัยจึงได้คิดนำเสนอการสร้างคลังข้อความข่าวภาษาไทย โดยรวบรวมข่าวแต่ละประเภทจากสำนักพิมพ์ต่างๆ  ที่มีการเผยแพร่บนอินเทอร์เน็ต ในรูปแบบอิเล็กทรอนิกส์ โดยมีการกำหนดมาตรฐานกลางสากลในการกำกับข้อมูล เพื่อให้ครอบคลุมการใช้งานพื้นฐานสำหรับงานประมวลผลภาษาธรรมชาติ  ซึ่งคลังข้อความข่าวภาษาไทยที่สร้างขึ้นนี้เป็นคลังข้อความข่าวภาษาไทยที่มีขนาด 10000 ข่าว และเปิดสู่สาธารณะเพื่อการนำไปใช้ประโยชน์ในงานวิจัยได้อย่างเสรี อนึ่งการกำกับข้อมูลในคลังข้อความข่าวนี้จะเน้นในส่วนของเนมเอนทิตี เช่น ชื่อบุ คคล ชื่อสถานที่ ชื่อสิ่งของ ชื่อองค์กร วันเวลา จำนวนและปริมาณ และส่วนแ สดงการกระทำ เช่น คำกริยา เป็นต้น คลังข้อความข่าว นอกจากนี้ทางคณะผู้วิจัยจะนำเสนองานวิจัยนี้ในรูปแบบของบทความวิชาการในระดับนานาชาติด้วย