ChatGPTに関する研究論文

2023.05.01 MON

プレプリント（査読前論文）とはなりますが、ChatGPTとGrammarlyを比較した論文が2023年3月に公開されています。この時点で、ChatGPTの文法エラー修正能力を評価する初めての研究とのことですので、その概略について簡単に紹介します。

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark

関連ページ

AI校正の比較

AIによる自動校正の比較

ChatGPTの英文校正能力について

Grammarlyと比較したパフォーマンス検証

ChatGPTに変更履歴機能を追加する

Chrome拡張でAIの修正箇所を可視化する

AI使用に対する方針

学術誌等の編集ポリシーについて

この論文では、非英語ネイティブによって書かれたテキスト（CoNLL-2014タスクデータセットから抜粋した100センテンス）を、GECToR 、Grammarly 、ChatGPTに入力し、出力内容を自動評価法と人間によるチェックにより評価しています。

GECToRは、Kostiantyn Omelianchuk氏らの論文で用いられた文法エラー修正プログラムで、一般公開されています。https://github.com/grammarly/gector

本論文では、各AIの出力評価から、大きく以下の結果が確認されています。

自動評価法による評価では、ChatGPTは他のAIに劣る結果となった。
ChatGPTは文法の正しさを維持しながらも、表現や文構造に至る変更を行おうとする特性が見られた。
人間による評価では、ChatGPTに関しては、発見できなかった文法ミスや、間違った修正が行われたものは少なく、文法レベルを超える大きな変更が多々見られた。

自動評価法による評価結果は、以下の通りとなります。

Table2で、”Precision”（適合率）は、「文法エラー修正の正確性」を表す数値となります。

算出式：出てきたうえ正解 (TP) ÷（出てきたうえ正解 (TP) ＋出てきたが不正解 (FP)）

つまり、この値が高いほど、加えられた文法修正が正確であるということになります。

この指標は、CECToRの文法修正が最も正確であり、ChatGPTは最も文法修正が不正確ということを表します。

“Recall”（再現率）は、「正しい修正がどのくらい想起されるか」を表します。

算出式：出てきたうえ正解 (TP) ÷（出てきたうえ正解 (TP) ＋出てほしいのに出ない (FN)）

この指標からは、GECToRは文法ミスの指摘が最も控えめであり、一方でChatGPTは、より多くのエラーを修正しようとする傾向が見られます。

この2つの指標から、以下のことが確認できます。

GECToR：正確性の高い文法修正を行うが、修正を行う箇所は少ない
ChatGPT：文法修正の正確性は他のAIに及ばないが、より多くの修正を加えようとする
Grammarly：上記2つのプログラムの中間。修正の正確性はGECToRに匹敵する程高い。

Table3は、文の長さごとに分けたPrecisionとRecall値を表しています。この表から分かる各AIの特徴は、以下の通りとなります。

GECToR：文の長さによらず修正候補は控えめだが、修正の正確性は高い
Grammarly：中・長文では短文よりも正確な修正が行われるが、長文になるほど修正候補が少なくなる。
ChatGPT：短文での正確性が最も高く、中・長文になると、文法修正の正確性が落ちる。文の長さによらず、できるだけ多くの修正候補を出そうとする。

Table4は、実際にどのような修正が行われたのかを示しています。

Sourceは、非ネイティブに書かれたテキストで、ReferenceはCoNLL-2014データセットに含まれる、英語ネイティブによって行われた修正となります。

GECToRとGrammarlyはマイナーな変更（“an example” → “example”、“family potential disease” → “a family’s potential disease”）を行っているのに対し、ChatGPTは語の選択（“chances” →“opportunities”）や文構造（“for family potential disease” → “in preventing potential family diseases”）の変更を行っているのがわかります。

この論文でChatGPTに入力された命令は” Do grammatical error correction on all the following sentences I type in the conversation.”なので、少なくともこの命令の範囲での校正は行われていません。

Table6は、人間がAIの出力を評価した結果となります。

#Under：AIが発見できなかった文法ミス
#Mis：発見された文法ミスに間違った修正が行われたもの
#Over：人間の修正案を超える修正を行ったもの

ChatGPTは発見出来なかった文法ミスは最も少なく、GECToRよりも間違った修正は少なかったという結果となっています。一方で、文法レベルの修正を超える変更が多く見られ、これらはChatGPTの大規模言語モデルとしての多様な生成能力により生じたのではないかと推論しています。

個人的には、文法レベル以上の変更を行う傾向のあるChatGPTと、きっちり文法レベルの修正を行うGrammarlyとGECToRを、CoNLL2014を使った自動評価法で評価することが適切かどうか疑問なのですが、世界で始めての研究とのことで概略をまとめてみました。また、同様の研究で興味深いものがあれば取り上げてみます。