プレプリント(査読前論文)とはなりますが、ChatGPTとGrammarlyを比較した論文が2023年3月に公開されています。この時点で、ChatGPTの文法エラー修正能力を評価する初めての研究とのことですので、その概略について簡単に紹介します。
ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark
関連ページ
この論文では、非英語ネイティブによって書かれたテキスト(CoNLL-2014タスクデータセットから抜粋した100センテンス)を、GECToR 、Grammarly 、ChatGPTに入力し、出力内容を自動評価法と人間によるチェックにより評価しています。
GECToRは、Kostiantyn Omelianchuk氏らの論文で用いられた文法エラー修正プログラムで、一般公開されています。https://github.com/grammarly/gector
本論文では、各AIの出力評価から、大きく以下の結果が確認されています。
自動評価法による評価結果は、以下の通りとなります。
Table2で、”Precision”(適合率)は、「文法エラー修正の正確性」を表す数値となります。
算出式:出てきたうえ正解 (TP) ÷(出てきたうえ正解 (TP) + 出てきたが不正解 (FP))
つまり、この値が高いほど、加えられた文法修正が正確であるということになります。
この指標は、CECToRの文法修正が最も正確であり、ChatGPTは最も文法修正が不正確ということを表します。
“Recall”(再現率)は、「正しい修正がどのくらい想起されるか」を表します。
算出式:出てきたうえ正解 (TP) ÷(出てきたうえ正解 (TP) + 出てほしいのに出ない (FN))
この指標からは、GECToRは文法ミスの指摘が最も控えめであり、一方でChatGPTは、より多くのエラーを修正しようとする傾向が見られます。
この2つの指標から、以下のことが確認できます。
Table3は、文の長さごとに分けたPrecisionとRecall値を表しています。この表から分かる各AIの特徴は、以下の通りとなります。
Table4は、実際にどのような修正が行われたのかを示しています。
Sourceは、非ネイティブに書かれたテキストで、ReferenceはCoNLL-2014データセットに含まれる、英語ネイティブによって行われた修正となります。
GECToRとGrammarlyはマイナーな変更(“an example” → “example”、“family potential disease” → “a family’s potential disease”)を行っているのに対し、ChatGPTは語の選択(“chances” →“opportunities”)や文構造(“for family potential disease” → “in preventing potential family diseases”)の変更を行っているのがわかります。
この論文でChatGPTに入力された命令は” Do grammatical error correction on all the following sentences I type in the conversation.”なので、少なくともこの命令の範囲での校正は行われていません。
Table6は、人間がAIの出力を評価した結果となります。
ChatGPTは発見出来なかった文法ミスは最も少なく、GECToRよりも間違った修正は少なかったという結果となっています。一方で、文法レベルの修正を超える変更が多く見られ、これらはChatGPTの大規模言語モデルとしての多様な生成能力により生じたのではないかと推論しています。
個人的には、文法レベル以上の変更を行う傾向のあるChatGPTと、きっちり文法レベルの修正を行うGrammarlyとGECToRを、CoNLL2014を使った自動評価法で評価することが適切かどうか疑問なのですが、世界で始めての研究とのことで概略をまとめてみました。また、同様の研究で興味深いものがあれば取り上げてみます。