AIが生成したナンセンスが科学雑誌に漏れている

2月、AIで生成された不条理なネズミのペニスが、その後撤回されたFrontiers in Cell and Developmental Biologyの論文に紛れ込んだ。今やこの奇妙な茶番劇は、科学文献で醸成されているより根深い問題の特に大きな例にすぎないように思える。現在、ジャーナルは、論文の下書きや画像の作成に人気があるが事実上疑わしい生成AIツールを使用する研究者にどう対応するのが最善かという岐路に立たされている。AI使用の証拠を見つけるのは必ずしも簡単ではないが、 404 Mediaの新しいレポートは、AIが生成したペニスが、科学文献で実際に使用されていることを示唆している。今週は、部分的に AI によって生成されたと思われる数十の公開記事が、あからさまに隠れていることがわかりました。その答えは、よく使われるコンピューターで生成された専門用語です。

404 Media は、AI が生成したフレーズ「私の最後の知識更新の時点で」を Google Scholar の公開データベースで検索し、コピーアンドペーストされた AI モデルの出力に依存していると思われる 115 件の記事を発見したと報告されています。この単語の文字列は、OpenAI の ChatGPT などの大規模な言語モデルによって頻繁に生成される多くの言い回しの 1 つです。この場合、「知識更新」は、モデルの参照データが更新された期間を指します。チャット。その他の一般的な生成 AI フレーズには、「AI 言語モデルとして」や「応答を再生成」などがあります。学術文献以外では、これらの AI アーティファクトは、Amazon の製品レビューやソーシャルメディアプラットフォーム全体に散在しています。

404 Mediaが引用した論文のいくつかは、量子もつれやリチウム金属電池の性能といった複雑な研究テーマを説明するとされる査読済み論文に AI のテキストを直接コピーしたもののようだ。生成 AI でよく使われる「リアルタイムデータにアクセスできません」というフレーズが含まれていると思われる他のジャーナル記事の例も、週末に X (旧 Twitter) で共有された。PopSciがレビューした例の少なくともいくつかは、AI モデルの研究に関連しているようだ。つまり、AI の発言は、それらの例における主題の一部だったのだ。

これらのフレーズのいくつかは評判の良い有名なジャーナルに掲載されていたが、 404 Media は、発見した例の大半は、多くの場合は有料で、科学的な精査や綿密な査読なしに論文を迅速に出版することに特化した、いわゆる「ペーパーミル」と呼ばれる小規模な出版社から生まれたものだと主張している。研究者らは、こうしたペーパーミルの急増が、近年の偽造または盗用の学術研究結果の増加につながっていると主張している。

信頼性の低いAI生成の主張は、さらなる撤回につながる可能性がある

出版された学術論文に明らかに AI が生成したテキストが見られる最近の例は、撤回件数が全体的に増加している中で起きている。昨年出版された研究論文を最近Nature が分析したところ、撤回件数は 10,000 件を超え、これはこれまでのどの年よりも多かった。これらのケースの大半は AI 生成コンテンツとは関係がなかったが、懸念する研究者は長年、こうしたツールの使用が増えると、より多くの虚偽または誤解を招くコンテンツが査読プロセスを通過することになるのではないかと懸念してきた。この恥ずかしいネズミのペニスのケースでは、奇妙な画像や「dissiliced」や「testtomcels」といった意味不明な AI 生成ラベルが、複数の査読者に気づかれず、あるいは報告されずにすり抜けてしまった。

AI 生成テキストを含む論文が、今後ますます一般的になると考えるのには十分な理由がある。2014 年には、IEEE と Springer の両誌が、AI が生成した意味不明な言語を含む論文を 120 本以上削除した。その後 10 年間で、OpenAI の ChatGPT のような、より洗練され、使いやすいツールが広く採用されるようになり、AI 生成テキストが論文に多く掲載されるようになったのはほぼ確実だ。

ネイチャーが2023年に科学者を対象に実施した調査では、回答者の約30％にあたる1,600人が、論文執筆にAIツールを使用していることを認めた。また、「AIアルゴリズムとして」などのフレーズは、文章が大規模言語モデル（LLM）に基づいていることを露呈する決定的な証拠となるが、この技術のその他の微妙な使用法は、見破るのが難しい。AI生成テキストを識別するために使用される検出モデルは、苛立たしいほど不十分であることが証明されている。

AI 生成テキストを場合によっては許可することを支持する人々は、それが非ネイティブスピーカーがより明確に自己表現するのを助け、言語の壁を下げる可能性があると主張しています。一方で、責任を持って使用すれば、ツールは出版時間を短縮し、全体的な効率を高めることができると主張する人もいます。しかし、これらのモデルによって生成された不正確なデータや捏造された調査結果を出版することは、長期的にはジャーナルの評判を損なうリスクがあります。Current Osteoporosis Reportsに最近掲載された論文では、人間が書いたレビュー記事レポートと ChatGPT によって生成されたレポートを比較し、AI 生成の例の方が読みやすい場合が多いことがわかりました。同時に、AI 生成レポートには不正確な参照も満載でした。

「正直に言うと、ChatGPT が行った偽りの発言の中には、かなり説得力のあるものもありました」とインディアナ大学医学部の教授で論文著者のメリッサ・カセナ氏は、タイム誌の最近のインタビューで語った。「適切な構文を使用し、それらを段落内の適切な発言と統合していたため、警告ベルが鳴らないこともありました。」

ジャーナルは生成AIに関する共通基準に同意すべき

大手出版社は、そもそもAI生成テキストを許可するかどうかについてまだ意見が一致していない。2022年以降、サイエンス誌が発行するジャーナルは、編集者に承認されていないAI生成テキストや画像の使用を固く禁じられている。一方、ネイチャー誌は昨年、AI生成画像や動画をジャーナルに掲載することは認めないが、特定のシナリオではAI生成テキストを許可するとの声明を発表した。JAMAは現在、AI生成テキストを許可しているが、研究者に対し、その掲載時期と使用した具体的なモデルを明らかにすることを義務付けている。

こうした方針の相違は、論文を提出する研究者と、それを精査する査読者の両方に不必要な混乱を引き起こす可能性がある。研究者には、論文を迅速に出版し、出版される論文の総数を増やすために、利用可能なツールを使用する動機がすでにある。大手ジャーナルによる AI 生成コンテンツに関する合意された基準は、研究者が従うべき明確な境界を設定することになるだろう。大手の定評あるジャーナルは、テクノロジーの特定の使用について明確な線引きをしたり、事実の主張をしようとする場合にはそれを完全に禁止したりすることで、より良心的でない論文作成者とさらに距離を置くこともできる。

<<: あなたの脳の「マスタースイッチボード」は過小評価されている驚異です

>>: 古代エジプト人はヒヒを捕獲し、ミイラ化していた可能性がある