บทคัดย่อภาษาไทย (Abstract)

ปัจจุบันคลังข้อความภาษาไทยสำหรับการนำไปใช้ในงานด้านการประมวลผลภาษาธรรมชาติยังมีน้อยมา คลังข้อความภาษาไทยที่ได้รับการใช้งานและเป็นที่รู้จักมากคือ คลังข้อความภาษาไทยชื่อ Orchid Corpus [1, 2] โดยคลังข้อความภาษาไทยนี้ถูกสร้างใน 1997 มีขนาด 4 แสนกว่าคำ และมีการกำกับชนิดของคำหรือ POS (part of speech) ไว้ทุกคำ (กำกับเฉพาะคำภาษาไทย ไม่กำกับคำภาษาอังกฤษ) รวมทั้งการกำกับย่อหน้าและขอบเขตของประโยคในแต่ละเอกสาร นอกจากนี้คลังข้อความที่รู้จักกัน คือคลังข้อความของทางมหาวิทยาลัยเกษตรศาสตร์ชื่อ NaiST Corpus [3]  โดยคลังข้อความนี้มี 675341 คำ (39925 ประโยค) และมีการกำกับคำ กำกับชนิดของคำ และกำกับประโยค สำหรับคลังข้อความข่าวนั้นที่มีการรวบรวมและมีการเปิดให้ใช้งานผ่านทางเว็บคือคลังข้อความข่าวของภาควิชาอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย [4] โดยคลังข้อความนี้เน้นการนำมาใช้ในการหาบริบทที่อยู่บริเวณรอบของคำที่ต้องการค้นหา โดยไม่มีการกำกับหน้าที่ของคำ นอกจากนี้ยังมีคลังข้อความคู่ภาษาหรือThai Bitext Corpus [5] ได้ถูกสร้างขึ้นจากการรวบรวมตัวอย่างของคู่ประโยคภาษาไทยและภาษาอังกฤษ ปัจจุบันมีโครงการคลังข้อมูลภาษาไทยแห่งชาติ (TNC) [6] ซึ่งประกาศของความร่วมมือผ่านทางเว็บเพื่อรวบรวมข้อความจากบุคคลทั่วไปที่อาจมีลิขสิทธิ์ติดอยู่ โดยขั้นแรกมีเป้าหมายที่เอกสารภาษาเขียนทั่วไปจำนวนประมาณ 80 ล้านคำ นอกจากนี้คลังข้อความทั้งห้านี้แล้ว ยังมีคลังประโยคอื่นๆที่อาจกระจัดกระจายตามมหาวิทยาลัยต่างๆโดยไม่ได้เปิดเผย อย่างไรก็ตามคลังประโยคต่างๆเหล่านี้จะมีรูปแบบการจัดเก็บ การกำหนดโครงสร้างที่แตกต่าง ขึ้นอยู่กับลักษณะของการนำไปใช้ แม้ปัจจุบันคลังข้อความจะมีการพัฒนาขึ้นมาใช้บ้างแล้ว แต่เรายังจำเป็นต้องการคลังข้อความเพิ่มขึ้นอีกมาก เนื่องจากคลังข้อความต่างๆยังมีขนาดและปริมาณที่ยังไม่เพียงพอ ด้วยเหตุนี้ทางคณะผู้วิจัยจึงได้คิดนำเสนอการสร้างคลังข้อความข่าวภาษาไทย โดยรวบรวมข่าวแต่ละประเภทจากสำนักพิมพ์ต่างๆ  ที่มีการเผยแพร่บนอินเทอร์เน็ต ในรูปแบบอิเล็กทรอนิกส์ โดยมีการกำหนดมาตรฐานในการกำกับข้อมูล เพื่อให้ครอบคลุมการใช้งานพื้นฐานสำหรับงานประมวลผลภาษาธรรมชาติ  ซึ่งคลังข้อความข่าวภาษาไทยที่สร้างขึ้นนี้เป็นคลังข้อความข่าวภาษาไทยที่มีขนาด 10000 ข่าว และเปิดสู่สาธารณะเพื่อการนำไปใช้ประโยชน์ในงานวิจัยได้อย่างเสรี อนึ่งการกำกับข้อมูลในคลังข้อความข่าวนี้จะเน้นในส่วนของเนมเอนทิตี เช่น ชื่อบุคคล ชื่อสถานที่ ชื่อสิ่งของ ชื่อองค์กร วันเวลา จำนวนและปริมาณ และส่วนแสดงการกระทำ เช่น คำกริยา เป็นต้น คลังข้อความข่าว นอกจากนี้ทางคณะผู้วิจัยจะนำเสนองานวิจัยนี้ในรูปแบบของบทความวิชาการในระดับนานาชาติด้วย

บทคัดย่อภาษาอังกฤษ (Abstract)

At present, there are still very few Thai electronic corpora developed for tasks of natural language processing. In early years, the well-known Thai corpus, Orchid Corpus [1, 2], was created in 1997 with the size of 400 thousand words. It includes part-of-speech (POS) tags for all Thai words, paragraph indicator and sentence indicators. Another Thai corpus, namely NaiST Corpus [3], was developed by Kasetsart University. It contains 39,925 sentences with 675,341 words. Word boundaries, POS tags and sentence indicators are annotated. For collection of news documents, there have been a project initiated by Faculty of Arts, Chulalongkorn University [4] to collect news articles and other types of texts from several sources and then to provide service for purpose of concordance finding. Therefore, there is no annotation. Recently Thai Bitext Corpus [5] have been constructed by collecting Thai/English translation. Recently there is a project called Thai National Corpus (TNC) [6] which plans to collect general documents with the target of 80M words. The aim is to let people contribute their written materials for public access.  Besides these five main corpora, there may be several small corpora developed individually and kept in each university without any exchange. However, all above-mentioned corpora have different format depending on their purposes of usage. At present we still need more corpora developed. In this project, we aim to develop a corpus of news articles that is annotated with name entities. Collecting online news articles that are published on the Internet, we will annotate name entities including in those articles. The annotation standard, namely Text Encoding Initiative (TEI),  is applied. The collected corpus is of 100,000 articles with 10,000 articles annotated. This corpus will be publicized for research use only.  The annotated name entities are person, place, organization, date/time, number. We also intend to tag action parts in sentences. The guideline of annotation will be published and a paper will be submitted for publication in an international conference and/or an international journal.