言語資源活用ワークショップ2020:プログラム

参加に際しては、参加登録が必要です(参加費無料)

9月8日(火)オープニング 10:30~11:00 (zoom)

9月8日(火)セッション1(学生セッション)11:00~11:50 (slack)

P1-1
外来語サ変動詞における日本語母語話者の許容状況 ―I-JASに基づく例文を用いた調査から―

発表者:南 亜希子(金沢大)

共著者:

「ドラマが/車がヒットする」のような外来語サ変動詞についての研究は、サ変動詞化の基準を始め十分に解明されていない。本研究では、外来語サ変動詞における日本語母語話者の許容状況を明らかにするため、I-JAS(国立国語研究所)に出現した外来語サ変動詞に対する日本語母語話者の許容度調査を行った。I-JASから収集した73語のうち、BCCWJの出現状況や外来語辞典等の用例と照合し、まだ十分に日本語として定着していない外来語サ変動詞57語を選出した。その上で、大学・大学院生89名から容認度判定を得た。調査の結果、外来語名詞と同様に「意味の縮小・特殊化」が外来語サ変動詞の許容度にも大きく影響しており、日本語に借用された際に意味の縮小や特殊化が起こっていると、原語の意味でのサ変動詞の許容度が低下することが分かった。これらの成果は、外来語の動詞化や、「日本語の外来語/外国語」の判断に関する基準の明確化に貢献し得ると思われる。

P1-2
日本語複合名詞へのコーパス基盤アプローチ

発表者:近 大志(京都大)

共著者:神原 一帆(京都大)

複合名詞 (NN-Compound) の解釈は文脈の影響を強く受けるため (Downing 1977),構成性を前提とした意味の理論に対して重大な問題を喚起する (影山 1999; Partee 1995).本研究では,Levin et al. (2019) が提示した,「後部要素N2の意味クラス (人工物, 自然物) が全体の解釈を予測づける」という分析を再現するため,BCCWJから [格助詞|普通名詞|普通名詞|格助詞] のパタンに合致する事例を無作為に500件抽出した.そして,これらの事例に対して N2 が人工物・自然物であるかを記録した.その結果,N2は人工物・自然物では捉えられない要素を多分に含むため,日本語にこの仮説を直接適用することが難しいということが判明した.また,人工物・自然物という区別に加え,制度(e.g., 罰金刑)や役割(e.g., 郵政大臣)といった区別が重要になることが示唆される.

P1-3
中国語を母語とする日本語学習者の話し言葉における副詞の使用傾向―I-JASを用いて習熟度別に―

発表者:島崎 英香(専修大)

共著者:

本発表では、中国語を母語とする日本語学習者(以下中国人学習者)による副詞の使用状況について習熟度別に分析する。 I-JASの話し言葉タスクを用いて、日本語母語話者と比較し中国人学習者による副詞の過剰使用、過少使用の傾向を調査した。 調査の結果、以下の点が明らかになった。 ① 中国人学習者の副詞の使用量は習熟度が上がるに連れて増加しているものの、日本語母語話者の使用量の半分程度であった。日本語母語話者と中国人学習者で共通して高頻度に使用されている副詞には「そう、ちょっと」等があった。 ② 日本語母語話者に比べて中国人学習者に過剰に使われている副詞は「とても」等、過少使用である副詞は「そう、こう、まあ」で、習熟度が上がってもその傾向にほとんど変化は見られなかった。 ③ 中国人学習者のうち、海外在住学習者と国内教室環境学習者を比べると、後者より前者の方が副詞の過剰使用、過少使用の傾向が強いことがわかった。

P1-4
類似度評定を用いた多義間の相互関係の分析-「鋭い」を事例に-

発表者:西内 沙恵(筑波大・国語研)

共著者:

発表は,語が多義的に使用された例文間の類似度評定が,複数の意味の相互関係を分析するのに役立てられるかを検討する。籾山(2001)は,多義の研究課題に(a)複数の意味の認定,(b)プロトタイプ的意味の認定,(c)複数の意味の相互関係の明示,(4)複数の意味すべてを統括するモデル・枠組みの解明をあげている。これまで,例文間で語の意味が似ていると感じるかという類似度評定が(a)と(b)に役立てられることがそれぞれ中本ほか(2004)や西内(2020)で論じられている。本発表では,類似度評定が(c)の分析に役立てられることを,「鋭い」を事例に論じる。調査では,『現代日本語書き言葉均衡コーパス』(以下,BCCWJ)から抽出した用例群のデータセットについて,クラウドソーシングで調査協力者に「ある1文から見てほかの文が似ているか」どうかを6 段階でチェックしてもらった。調査の結果に基づき,「鋭いナイフ」のような<物理的に尖っている>,「鋭い指摘」のような<勢いが激しく感じられる>,「鋭い嗅覚」のような<知覚が敏感な>という意味間の関係について,認知意味論的な派生関係の分析が類似度評定からも支持されることを示す。

P1-5
日本語学習者の助詞・動詞選択における解答時間と誤答率の傾向  -5週間のオンライン学習項目の分析を中心に-

発表者:沖本 与子(一橋大)

共著者:

本研究は,助詞と動詞を組み合わせた問題項目における学習者の解答時間と誤答率の傾向及び,同一の問題項目における誤答率の推移を分析し,日本語学習者の解答特徴を把握することを目的とする。研究に使用した言語資源は,松下(2011)「日本語を読むための語彙データベース(VDRJ)」であり,この言語資源から動詞を抽出した。抽出した動詞200語(対のある自他動詞134語・対のない自他動詞32語・上級レベルの動詞32語)を用いた5種類の異なる問題文を作成し,5週間のオンライン学習コンテンツを構築した。2019年11月~12月に中級前半を終了した日本語学習者11人が調査に参加した。参加者は1日1回オンライン上で40~50問の問題を学習した。本研究では,総解答数12,578項目の内,0:00:00(0秒)~0:00:19(19秒)で解答した11,368項目を分析対象とした。解答データの分析は,解答の分布を考慮して解答時間が5秒以上と5秒未満の2つの設問グループに分けて行った。また解答時間が5秒以上の設問グループは相対的に誤答率が高いことが分かった。同様に各調査参加者が同じ項目を2回以上解答した場合を確認すると,日を追うごとにその項目の誤答数が下がることが分かった。日本語学習者の5週間に及ぶオンライン学習に対する解答傾向を分析することで,特にオンライン教育実践への応用が期待できる。

P1-6
知識を伝える記述ルール:小学校・中学校の理科教科書を対象として

発表者:新井 庭子(東京大)

共著者:

「教科書は知識体系を伝えるためにどのような言語表現を用いており,それらは教育段階に応じてどのように変化するのか」というリサーチクエスチョンをたて,それに答えるために小学校5年生から中学校2年生の理科教科書を実証的に分析した。学校教育で主要な教材である教科書は,ある専門分野の概念体系を理解させることを意図して,しかもそれを可能にするように書かれたテキストと位置付けられている。しかし,教科書の言語表現が実際にどのような様態であるかを知識を伝えるという役割を考慮して実証的に示した研究はない。分析に際して,知識を構成する言語表現という観点から,概念体系の示され方(前提,概念,概念同士の関係)に着目して分析を行った結果,小・中間で概念体系に関する言語表現の構成が大きく異なるとわかった。前提に関する言語表現が中学で激減し,概念や概念同士の関係に関する言語表現が顕著に増加することが観察された。



9月8日(火)講習会ビデオセッション 13:00~14:30 (zoom)

国立国語研究所オープンハウ ス(9/10 (木) 開催)で配信予定のコーパス開発センター作成動画8本を配信する とともに、質問にお答えする時間を設けます。

V1
『中納言』の概要

V2
まとめて検索『KOTONOHA』

V3
コーパス検索システムの言語単位『短単位』

V4
コーパス検索アプリケーション『中納言』音声配信

V5
『分類語彙表』とは―意味の世界の分類―

V6
「分類語彙表番号-UniDic語彙素番号対応表」の構築―コーパスへの網羅的・体系的な語義情報付与のために―

V7
『現代日本語書き言葉均衡コーパス』への意味情報(分類語彙表番号と助動詞用法)付与

V8
分類語彙表に対する単語親密度情報付与

動画は、9/10 (木) 以降、国立国語研究所オープンハウスのサイトで公開されます。

9月8日(火)セッション2 15:00~15:50 (slack)

P2-1
医学書テキストに現れる文末表現の特徴 ―単語N-gramを用いた分析―

発表者:本多 由美子(一橋大)

共著者:丸山 岳彦(専修大・国語研) 三枝 令子(専修大)

本発表では、一般のテキストとは異なる文体的特徴を持つと考えられる 「医学書」を対象とした言語学的分析の一例として、医学書2冊のテキスト(延べ約218万語)に現れる文末表現の特徴を単語N-gramを用いて分析した。比較対象として、『現代日本語書き言葉均衡コーパス』の「特定目的・ベストセラー」内の文学作品のデータを用いた。分析の結果、医学書の文末表現には文学作品と比べて①定型表現が多く用いられること、②動詞の使用傾向が強いこと、③受身形の使用に特徴があることが明らかになった。また、医学書の文末で使用頻度の高い動詞「ある」「する」「いる」では、「ある」は「形状詞+である」、「する」は「漢語名詞+する」、「いる」は「受身形+ている」という形が、文学作品に比べて顕著に多く出現することが分かった。これらの特徴は、医学書が疾患や症状を解説し、その処置や対応方法を述べる内容のテキストであることによると考えられる。

P2-2
「阪急文化アーカイブズ」を利用した日本語研究/言語景観研究の可能性

発表者:岡田 祥平(新潟大)

共著者:正木 喜勝(阪急文化財団)

 2017年4月1日,公益財団法人阪急文化財団は,財団が所有する各種資料をインターネット上で検索・閲覧できる「阪急文化アーカイブズ(以下,アーカイブズ)」を公開した。「アーカイブズ」で検索・閲覧できる資料のうち,1910年の開業以来阪急電鉄が手がけた事業に関する掲示物や,阪急沿線のイベントを告知する掲示物である「阪急・宝塚ポスター」類は,日本語研究,中でも言語景観研究の貴重な資料となり得る可能性を秘めている。言語景観研究の対象となり得る各種資料は性格上,散逸しがちであるが,「アーカイブズ」を利用すれば,阪急電鉄関連のものに限定されるとはいえ,大量の資料(約1万5,000点)が,第2次世界大戦以前のものから,インターネット上で検索・閲覧できるからである。  本発表では,「アーカイブズ」の概要を紹介したうえで,「アーカイブズ」を利用した日本語研究,中でも言語景観研究の簡単な実践例を示す。そのうえで,聴衆とのディスカッションを通して,「アーカイブズ」を利用した日本語研究や言語景観研究の可能性と限界を考えたい。

P2-3
学校課題作文コーパスの構築

発表者:今田 水穂(筑波大)

共著者:宮城 信(富山大)

児童の作文能力を研究するための資料整備を目的として、現在の児童の作文調査や、過去の作文資料の電子化を進めている。この研究の一環として、国語研究所所蔵の1980年代の作文資料(島村1987)を電子化したので、その概要を報告する。この資料は昭和58年に千葉県内の公立小学校2年、4年、6年の児童の作文を調査したもので、「学校」「先生」「ともだち」の3つの課題を含む。原資料は約1500篇ほどの規模の調査と考えられるが、資料の欠落もあり、電子化した資料は1021篇である。資料の概要と電子化作業の詳細について報告し、既に構築済みの「児童・生徒作文コーパス」(2014-2016)、「「手」作文コーパス」(1992, 2016)との違いについて、文字種の構成比を中心に説明する。

P2-4
地方都市における高度成長期前後の市民生活 ー静岡、茨城、神奈川県政ニュース映画に見る時代と地域ー

発表者:春木 良且(フェリス女学院大)

共著者:田中 弥生(国語研・神奈川大)

筆者は先行研究として、神奈川県政ニュースのうち川崎市政ニュース映画を題材に、特にナレーション表現に着目して、戦後昭和2,30年代の都市部の市民生活などについて考察してきた。本研究では、同様に自治体による行政映画である、茨城県と静岡県の県政ニュースを題材に、高度成長期を挟んだ、地方都市における市民生活の変化を、都市部川崎と比較する。 茨城、静岡共、地域内の軍需工場に対する大空襲の被害が大きかった地域であり、昭和20年代から、広域自治体レベルでの記録映画が残されている。 本研究では、ナレーションだけではなく、映像表現を併せて分析を行う。特に行政映画は、1篇が短く映像自体、通常映画に比べて、シンボリックに表現されているという傾向がある。 昭和30年代以降に生まれた、地方と都市という対比構造の中で、その地の市民生活の小さな差異が、高度成長急激に顕在化していく記録として、政策ニュース映画を捉えるものである。

P2-5
植物に関する自由形式説明文からのJSON形式テキストの自動生成

発表者:山本 富士男(神奈川工科大)

共著者:

 約2,100種の植物の特性が自由形式で簡潔に(一行程度で)記述されているあるデジタル図鑑(写真集)を言語資源として利用する。ここで、例えば、「果実が楕円形で花が白い」植物を検索したい場合、単に「楕円」や「白」というキーワードを与えるのでは(葉が楕円形もあるので)明らかに不都合が生ずる。そこで、これらの自由形式記述を、係り受け解析器(CaboCha)で解析して構造木を作り、そこから、コンピュータで検索しやすくするためのJSON形式を自動生成することを試みた。JSONのタグとしては、葉と花と果実のそれぞれについて、type(種類)、what(色や形や大きさ)、how(配置や結合や出現時期等)を設定し、対応する値(value)は、構造木を一定の方式で辿りながらノード上のテキストを連結することで得た。さらに自動生成したJSONを植物オブジェクトの(Javaよる)ストリームに変換して、マップやフィルタ処理を施すことにより、検索を効率的に実行できた。

P2-6
「障害がない」はどのような状態を指すのか―日本語書き言葉均衡コーパス(BCCWJ)および筑波ウェブコーパス(TWC)の分析より―

発表者:宮崎 康支(関西学院大)

共著者:

 本研究の目的は、日本語の書き言葉における「障害」を巡る否定表現の射程を、「障害がない」を事例として、「障害の社会モデル」の援用により明らかにすることである。そこで、「日本語書き言葉均衡コーパス(BCCWJ)」および「筑波ウェブコーパス(TWC)」より否定表現「障害がない」の用例を収集した。用例の中から、「人間および人間の集団、ないし人体の一部分に関する障害」を指すものを分析の対象とした。用例を、目視によって障害の「個人モデル」(医学モデル)的用法―個人における心身機能の医学的制約に焦点を置く―と、「社会モデル」的用法―社会的障壁に焦点を置く―に分類した。そして、各用例における「障害がない」が射程とする否定の対象を精査した。その結果、人体における障害に関する用例においては「個人モデル」的用法が顕著であるものの、社会的障壁を示す「社会モデル」的用法も主に法制度や社会啓発に用いられていることが明らかになった。

P2-7
正規表現による文型検索ツールの試作――IPADicとUniDicの利用をめぐって

発表者:蔡 佩青(淡江大)

共著者:魏 世杰(淡江大)

発表者は、2020年6月20日に淡江大学(台湾)で開催された『AIと日本語教育との協働』国際シンポジウムにおいて、「正規表現による文型検索ツールの提案と試作」というタイトルで口頭発表を行った。発表では、日本語学習者が文章を作成する際の文型応用力を高めるための、文型検索ツールの開発を提案した。すなわち、入力した文章には指定の文型に当てはまる文があれば、自動的にリストアップされ文型部分がハイライト表示されるような、文型検索のユーザインタフェースを構築するのである。検索ツールは正規表現(Regular Expression)をもってプログラミングするが、形態素解析はMeCabを、辞書はIPADicを用いた。ところが、試作版のテスティングでは、MeCabの誤解析による文と文型とのミスマッチングが起こった。その一部はIPADicの形態素に付与する品詞情報に起因すると考えられる。本発表では、上述の研究成果と課題をふまえ、辞書をUniDicに替えたテスト結果を検討する。

P2-8
病名を表す合成語の語末調査

発表者:相良 かおる(西南女学院大)

共著者:高崎 智子(西南女学院大)・東条 佳奈(大阪大)・麻 子軒(大阪大)・山崎 誠(国語研)

 今回、病名を表す合成語の語末には「症」、「炎」、「病」以外にどのような語がくるのかとの疑問から、病名を表す合成語の語末を調べた。  具体的には、現在我々が着手している専門的な意味を持つ合成語の語構成解析調査の対象合成語7,194語の内、医療情報システム開発センター(MEDIS-DC)の病名マスターに登録されている病名5,465語の語末1文字、2文字、3文字の頻度を調べた。加えて、語構成要素解析において我々が定めた語単位で分割した場合に語末となる語構成要素の頻度を調べた。  その結果、語末1文字では、「症(754語)」が最も多く、次いで「傷(664語)」、「炎(494語)」と続き、「病(76語)」は23位で、「症」、「炎」、「病」の全体に占める割合は24%であった。一方、語構成要素では、「腫瘍(406語)」が最も多く、次いで「損傷(376語)」、「出血(164語)」と続き、「症」、「炎」、「病」の何れかを含むものとしては8位に「狭窄症(100語)」が、10位に「感染症(85語)」があった。

P2-9
子どもの会話コーパスの構築に向けて

発表者:小磯 花絵(国語研)

共著者:居關 友里子(国語研)・柏野 和佳子(国語研)・角田 ゆかり(国語研)・田中 弥生(国語研)・宮城信(富山大)

現在構築中の『日本語日常会話コーパス』(CEJC)は、多様な場面・話者との会話を対象とし、映像を含めて公開するというものであるが、CEJCは成人の調査協力者を中心に会話を収集しているため、未成年者の発話が少ないという問題がある。そこで、幼児を含む子どもの会話コーパスの構築を目指し、8世帯10名の子どもを対象とする会話収録と幼稚園での会話収録を進めている。成人話者中心のCEJCと接続させることで、コミュニケーションを含む言語の発達・変化の過程を、子どもから高齢者まで長期に渡り実証的に研究できる基盤を構築することを目指すものである。本発表では構築予定の子ども会話コーパスの設計方針や収録状況について報告する。

P2-10
実践医療用語を構成する語の意味分布

発表者:山崎 誠(国語研)

共著者:

 実践医療用語とは,医師,看護師などが電子カルテを作成する際に使う用語で,医療・介護などの専門用語のほかに,医療現場での慣用的な用語や助詞が省略された臨時一語などが含まれている。本発表では,実践医療用語を意味の量的な分布を通して概観するとともに,語構成的な特徴を明らかにする。  利用するデータは,2020年5月に公開されたComeJisyoUtf8-2に収録されている114957語である。これにMeCab 0.996とUniDic-cwj-2.2.0で解析し,分類語彙表増補改訂版の情報を付与したものを利用した。主な結果は,以下のとおり。 (1)1語あたりの短単位数は平均2.7,最大値は13であった。 (2)中項目の意味分類では,全体では「量」「身体」「作用」「生命」「心」が上位5カテゴリーであるが,語頭・語中においては,「身体」がもっとも多く,語末では「生命」がいちばん多かった。 (3)分類項目では,全体では「病気・体調」がいちばん多かったが,語頭では,「膜・筋・神経・内臓」,語中では「性質」,語末では「病気・体調」が最多であった。 (4)国家試験(看護師,助産師,管理栄養士)や看護師及び管理栄養士養成校で使用されている教科書での出現状況においても意味分布に違いが見られた。



9月9日(水)セッション3 11:00~11:50 (slack)

セッション3 11:00~11:50

P3-1
BERT による単語埋め込み表現の分散値を用いた語義の広がりの分析

発表者:欧 陽恵子(茨城大)

共著者:曹 鋭(茨城大)・白 静(茨城大)・馬 ブン(茨城大)・新納 浩幸(茨城大)

BERT が出力する単語の埋め込み表現は、その単語が現れた文の文脈に依存している。このためある単語 w の用例を収集し、BERT により得られる単語 w に対する埋め込み表現から、それらの分散値を計算すると、その値は単語 w の語義の広がりに対応すると考えられる。本稿では多義語「頭」「意味」「核」「記録」「言葉」「胸」と単義語「生産」、「政治」、「意識」、「抗議」、「成績」を対象にそれら単語の用例を収集し、上記の点を確認した。また BERT のどの位置の階層が最も語義の広がりに影響しているかを調査した。

P3-2
BERT の Masked Language Model を用いた二文間の接続関係の推定

発表者:趙 一(茨城大)

共著者:曹 鋭(茨城大)・白 静(茨城大)・馬 ブン(茨城大)・新納 浩幸(茨城大)

BERT の Masked Language Model を利用すると、文中のマスクされた単語を推定することができる。また BERT は2つの文 s1 と s2 を入力するができる。そこで s2 の直前にマスク単語を置き、"[CLS] s1 [SEP] [MASK] s2 [SEP]"の形でBERT に入力し、BERT から推定される [MASK] の単語から文 s1 と文s2 の関係を推定することを試みる。具体的には関係を表す接続詞を準備し、[MASK] がそれら接続詞となる確率を求めることで二文間の関係を推定する。実験では [MASK] の部分が実際に接続詞であったものを対象にして、正しくマスクされた接続詞を推定できるかどうかの実験を行った。

P3-3
二言語 BERT を利用したターゲット言語の教師データを必要としない感情分析

発表者:荘司 響之介(茨城大)

共著者:曹 鋭(茨城大)・白 静(茨城大)・馬 ブン(茨城大)・新納 浩幸(茨城大)

文書分類のタスクを教師あり学習で解く場合、大量のラベル付きデータ(教師データ)が必要であり、このデータの構築コストが高いという問題がある。ただし、英語などのメジャーな言語に対しては、ラベル付けされたデータが既に存在していることも多い。この場合、英語側では分類器を学習できるため、その学習できた知識を、タスクの対象となっている言語側へ転移できれば、ターゲット言語での教師データを利用せずに、分類器を構築することができる。本論文ではそのような転移を行うために BERT を用いる。具体的には、 英語 BERT を用いて英語の訓練文書をベクトル化し、それをもとに分類器を学習する。次に、ターゲット領域の文書となる日本語の文書を、日本語 BERT を用いてベクトル化する。あらかじめ学習しておいた2言語間のBERT の変換器を用いて日本語の文書ベクトルを英語のベクトル空間に埋め込み、先の分類器によって識別する。これによって、ターゲット言語である日本語の訓練文書を利用せずに、日本語の文書の感情分析が可能となる。

P3-4
コーパスに見る漢語「無理」の歴史

発表者:髙橋 圭子(東洋大他)

共著者:東泉 裕子(明治大他)

漢語「無理」は、15世紀頃には「理(ことわり)無し」という文字通りの意味の名詞であったが、17世紀頃には「強引な」「不可能な」という意味の形容動詞としても用いられるようになってきた。さらに、20世紀頃には活用語尾を伴わない「無理」単独の形や「無理無理」という畳語の形で、副詞としての用法や、断り・不承諾の意味を表す応答詞的な用法が観察されるようになる。また、インターネットを中心に「耐えきれないほど素晴らしい」というプラスの意味の感動詞的用法も発達してきた。このような「無理」の歴史を各種コーパスからたどり、漢語由来の語用論的標識の発達という観点を中心に考察する。

P3-5
リアルタイムMRI動画日本語調音運動データベースの設計

発表者:前川 喜久雄(国語研)

共著者:西川 賢哉(国語研)・浅井 拓也(早稲田大)・能田 由紀子(国語研)・正木 信夫(ATR-Promotion)・島田 育廣(ATR-Promotion)・竹本 浩典(千葉工大)・北村 達也(甲南大)・斎藤 純男(拓殖大)・籠宮 隆之(国語研)・石本 祐一(国語研)・菊池 英明(早稲田大)・藤本 雅子(早稲田大)・八木 豊(ピコラボ)

構築中のリアルタイムMRI動画による日本語調音運動データベースについて報告する。本データベースは、声道正中矢状断面における音声諸器官の運動を毎秒14フレームないし25フレームの時間解像度で撮像した動画で構成されており、空間解像度は256×256ピクセル(1ピクセル=1㎜)である。発話リストは、モーラユニグラム(104-109項目)、モーラバイグラム(676項目)、特殊モーラ(100-149項目)等からなり、収録時期により若干の異同がある。現時点で東京方言話者16名(男性11名女性5名)と近畿方言話者5名(男性3名女性2名)のデータを収録しており、1名の発話量はポーズを除外した実質値で25分前後である。データベースの試作版は表計算ソフトで稼働しており、音素列、単語の日本語表記、話者、方言等による検索ができる。ヒットした発話は1本の動画ファイルに合成されて出力される。現在、同等の機能をもったウェブアプリとデスクトップアプリの開発を進めており、将来的には音声器官の輪郭を抽出したデータ等も公開する予定である。

P3-6
語義曖昧性解消における辞書に定義された単義語利用についての分析

発表者:佐々木 稔(茨城大)

共著者:谷田部 梨恵(茨城大)

多義語の語義曖昧性解消を自動的に行う際,一般的に周辺の共起単語を特徴として利用する.周辺の文脈情報は語義曖昧性解消を行う際の大きな手掛かりとなるが,周辺文脈には複数の語義を持つ多義語が多く存在する.そのため,多義語により文脈を誤って捉えてしまうため、語義曖昧性解消の精度に悪影響を及ぼす可能性がある.そこで本研究では,語義曖昧性解消システムにおいて,辞書に定義された単義語を効果的に使用するための方法について調査し,従来の基本素性ベクトルとどのように組み合わせると有効なのか分析を行う.単義語は語義をひとつしか持たず,語義の特徴が一意に決定されると考えられる.この性質を語義曖昧性解消に応用することで,対象単語の周辺文脈を適切に捉えることができると考えられる.単義語の分散表現,単義語のフラグについて様々な素性の組み合わせについて語義曖昧性解消実験を行い,どの組み合わせが有効なのか分析する.

P3-7
逆接の接続詞から見る明治・大正期の書き言葉の文体の通時的変化

発表者:近藤 明日子(国語研)

共著者:

明治・大正期における口語体書き言葉の定着の過程において、文語体書き言葉との関係性を探索するために、『日本語歴史コーパス 明治・大正編Ⅰ雑誌』を資料として、逆接の接続詞の語形を例に、文章種類と語形との対応関係および、文語体・口語体ごとの語形の通時的変化を分析した。その結果、次のことが明らかになった。(1)文章種類と逆接の接続詞の語形との間には強い対応関係がある。(2)文語体と敬体多の口語体では、書き言葉的性質の強い語形の使用が減少し、話し言葉的性質の強い語形の使用が増加する通時的変化が見られる。(3)口語体ではその萌芽期から文語体で広く使用される語形の一部が取り入れられており、文語体の影響を受けながら口語体が成立した様相をうかがうことができる。

P3-8
参照における相互認識達成のための方略に関する検討

発表者:川端 良子(国語研)

共著者:

会話において会話の参加者が特定の対象を参照した際,話し手が意図した対象と同じ対象を聞き手が想定できることは,会話によるコミュニケーション成立のための不可欠な要素の一つである。この参照の相互認識達成の課題に対して,Clark and Wilers-Gibbsは,対話参加者は共同のエフォートが最小化されるように相互的言語活動を行っていると述べている。彼らが示した参照方略の一つが,'Installment noun pharase'(以降INPと省略)である。このINPは日本語地図課題対話でも散見される。本研究は,日本語地図課題対話を用いて、会話においてINPが用いられた際,実際にどのようなインタラクションが行なわれれるのかを明らかにし,そのインタラクションの結果がどのようにして共同のエフォートの最小化に繋っているのかを検討する。

P3-9
脱文脈化の観点からみる職場における取引先との談話の特徴

発表者:田中 弥生(国語研)

共著者:小磯 花絵(国語研)

本研究は、職場における取引先との談話コミュニケーションに関して、脱文脈化の観点から検討するものである。ここで、脱文脈化の観点とは、コミュニケーションが行われている時空と、その発話内容との、時間的・空間的距離の程度のことをさす。目的や話題内容、状況によって、談話やテキストの脱文脈化の程度は様々に展開するものであることがこれまでの研究から明らかになっている。職場における談話について、これまで、敬語の使用や談話構造など、様々な観点から分析が行われているが、取引先との談話を脱文脈化の観点から検討したものは見当たらない。本発表では、現在国語研究所で構築中の「日本語日常会話コーパス」のモニター公開版から、印刷会社社長とその取引先との談話を分析の対象とし、それぞれの発話について言語表現から修辞機能を特定し、どのように発話を展開させているか、脱文脈化の観点からの特徴について検討を行う。

P3-10
科学技術系ライティング教材作成のためのComainuを利用した日本語学術文技術文長単位解析

発表者:堀 一成(大阪大)

共著者:坂尻 彰宏(大阪大)

 大学学部初年次生向け科学技術系日本語アカデミック・ライティング指導教材を作成する際の基礎データとするため、学術文・技術文の長単位による形態素解析を行い、用いられている(基本語彙を除く)一般動詞の頻度情報を得た。  長単位形態素解析に用いたソフトウェアは、小澤俊介氏らの開発したComainu-0.72を採用した。  学術文の代表として、大阪大学に提出された理学・工学・医学・薬学などの日本語博士学位論文の本文(107件でデータ量は、全角文字数で約450万字)を、技術文の代表として、大阪産業技術研究所が公開している技術報告文(486文書、データ量全角文字数で約35万字)を、解析の対象として選定した。  より専門的な語彙を抽出するため、国立国語研究所の国語研教育基本語彙のうち、特に基本的とされる2000語に含まれる動詞を除く処理も行った。  本報告では、ソフトウェア実行環境の構築法、一連の処理を分割して実行するAWKやPythonのプログラム開発、得られた成果に対する考察などを紹介する予定である。



9月9日(水)KOTONOHA検索コンテスト2020 13:30~14:30 (zoom)

まとめて検索『KOTONOHA』の紹介
KOTONOHA検索コンテストの説明
優秀賞表彰式

9月9日(水)セッション4 15:00~15:50 (slack)

P4-1
現実会話と小説内会話における引用文の使用傾向 ―「ッテ+動詞」の形を中心に―

発表者:清水 まさ子(国際交流基金)

共著者:

 本発表は、「引用標識『ッテ』+動詞」で表される引用文が、現実会話と小説内会話それぞれにおいて、どのように使用されるのかを調査したものである。調査の結果、レジスターが異なるといえども、「ッテ」に後続する動詞は「いう」が最も多いことがわかった。しかし現実会話中では、先行する話の内容の一部を再度引用して新たな表現として引用部に取り込む「ッテ+いう。」引用文(例:いやでもこのままじゃなっていう。)が多く、一方小説内会話では、話し手の感情を表すために使われるような「ッテ+いう」引用文(例:どうしたっていうんだ?)が多かった。  考察として、目の前いる相手の理解度や話の流れによって、再度同じ内容を挟みこみながら進んでいく「現実会話の特性」と、小説の読み手に対しても登場人物の会話に込めた気持ちを表していることになる「小説内会話の特性」の違いが、上記のような結果に影響したのではないかと考えた。

P4-2
会話における感動詞「うわー(っ)」

発表者:加藤 恵梨(大手前大)

共著者:

本研究では、『日本語日常会話コーパス』モニター公開版を用い、感動詞「うわー(っ)」が会話においてどのように用いられているのかを調査・分析する。「うわー(っ)」は、「主体の無意識が暗示され、驚きのほかに困惑・感動・驚嘆などさまざまなニュアンスをもつ」(『現代感動詞用法辞典』, p.54)と説明されている。しかし、実際の会話での使用を見ると、無意識的な使用よりも、文脈から相手の期待を読み取って、驚きや感動、同情などを意識的に表すため用いられることが多い。『日本語日常会話コーパス』モニター公開版では、「うわー(っ)」は132回使用され、男性は20名が64回、女性は35名が68回使用している。男性は出された料理の味や見た目に対して感動や驚きを示すために「うわー(っ)」と発していることが多いが、女性は「うわー(っ)」の後に「かわいそうだね」といった感想を述べる表現が続いているように、驚きだけではなく、同情を示す際に「うわー(っ)」を使用していることが多いことが分かった。

P4-3
子ども-保護者間会話における[要求-拒否]のやり取り

発表者:居關 友里子(国語研)

共著者:小磯 花絵(国語研)

本研究では、子どもとその保護者のやり取りに注目し、この中に生じていた、何らかの行動を行う、あるいは行わないよう対話相手に要求し、相手がそれを拒否するやり取りについて分析を行った。子どもと保護者の間では、要求に拒否が返されたあとにさらに要求、拒否が複数回連なり、両者の希望が平行線をたどる様子が観察される。このような局面で、保護者、子どものそれぞれが、代案提示や遊びのフレームの利用などといった方略を用い、やり取りに変化を生じさせ、さらなる展開や収束に向かうよう働きかけていることを指摘した。

P4-4
日中接触場面の雑談における母語話者と非母語話者による「バランスをとるための笑い」の分析-『BTSJ日本語自然会話コーパス(2020年版)』を用いて-

発表者:宇佐美 まゆみ(国語研)

共著者:張 未未(早稲田大)

日常生活に頻繁に生じる笑いは,ポライトネスにもかかわり,対人コミュニケーション上,極めて重要である。本研究では,『BTSJ日本語自然会話コーパス2020年版』を用いて,日中接触場面の初対面・友人同士の会話における発話時の「バランスをとるための笑い」(早川,2000)を,母語話者と非母語話者で比較した。その結果,①初対面の会話では,母語話者のほうがバランスをとるための笑いが多く,友人同士の会話では,非母語話者のほうが多い。②母語話者は,友人との会話より初対面の会話において,バランスをとるための笑いが多いが、非母語話者は,どちらの会話にも差がない。③母語話者は,初対面会話において自分の領域に属する内容に言及する際,笑いが共起することが多いが,非母語話者は,初対面・友人同士いずれの場面においても,相手領域に踏み込む際にバランスをとるための笑いを共起させてポジティブ・ポライトネスを示していることなどが明らかになった。 早川治子(2000)「相互行為としての『笑い』-自・他の領域に注目して-」『文学部紀要』14(1),23-43,文教大学文学部

P4-5
フィッシュボウル方式のディスカッション練習に向けたモバイル型観察支援システムの拡張と観察活動の検証

発表者:山口 昌也(国語研)

共著者:栁田 直美(一橋大)

我々はこれまでディスカッション練習などの教育活動の観察とふりかえりを支援するために,モバイル型の観察支援システムFishWatchr Mini(以後,FWM)を開発してきた。FWMを用いた観察では,(1)学習者がリアルタイムの活動に対して,ボタン選択式でアノテーションを行い,(2) 観察後,観察者全員のアノテーション結果と活動のビデオとを同期・視覚化することにより,グループでのふりかえり活動を支援する。本発表では,フィッシュボウル方式のディスカッション練習にFWMを導入する方法を示す。また,導入時のFWMの機能拡張として,ふりかえり時のビデオ参照機能について説明した。提案した導入方法と拡張されたFWMを用いて,3回のディスカッション練習を大学の授業の中で実践した。実践の結果,FWMのふりかえり支援機能,および,ディスカッション練習時のビデオ映像によって,導入方法として示したふりかえり方法が有効に機能しうることを確認した。

P4-6
『日本語日常会話コーパス』に対する短単位情報付与:作業工程と評価

発表者:西川 賢哉(国語研)

共著者:渡邊 友香(国語研)

『日本語日常会話コーパス』(CEJC)の短単位情報付与作業では、以下のような作業工程を踏んでいる:(i) 転記をMeCab(解析器)+ UniDic(解析辞書)で自動解析、(ii) 音声を聴取しながら、付加情報の一つである「発音形」のみを人手修正、(iii) 人手修正された発音形を尊重しつつ再び自動解析、(iv) 短単位情報(境界情報、発音形以外の付加情報)を人手修正。この作業工程の妥当性を検証するため、人手修正済みデータを対象に、複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1)で自動解析をしなおし、出力を比較した。その結果、どの版のUniDicを使っても、人手修正された発音形の情報を用いる方が、そうでない場合に比べ、短単位情報の精度向上を見込めることがわかった。特に、古い版のUniDic (Ver2.2.0)ではそれが顕著であった(境界+品詞+語彙素(F値):0.944→0.962)。一方で、最新版のUniDic (Ver3.0.1)では効果は限定的である(同:0.976→0.979)。

P4-7
『日本語日常会話コーパス』モニター公開版に見られる感動詞以外の応答表現

発表者:柏野和佳子(国語研)

共著者:

会話中には,相手の発話に応じ,何らかの反応を返す表現が多用される。これを「応答表現」と呼ぶ。柏野和佳子「『日本語日常会話コーパス』モニター公開版に見られる応答表現」(LRW2019_p-4-7)』では,応答表現用法があるととらえた,(1)肯定・否定の反応を示す感動詞と,(2)感情(驚き・感心・喜び・落胆など)の反応を示す感動詞の使用実態を報告した。また,文末表現が応答表現として用いられているものから(1)デス系,(2)ダ・ダロウ系,(3)ジャ・デハ系の三つの使用実態を報告した。本研究では,それら以外の文末表現や,いわゆる接続表現,名詞,副詞,形容詞などの他品詞の語が応答表現として用いられている語について抽出,分析した結果を報告する。

P4-8
「嫌な経験」の語りにおける笑い

発表者:臼田 泰如(国語研)

共著者:

本研究は,日常会話において,参与者が過去に経験した「嫌なこと」についての語りにおいて,しばしば語り手自身や聴き手による笑いが生じることについて,それが何を行なっているのかを分析する.嫌な経験を語ることはしばしば日常生活において生じることではあるが,例えばそうした語りをする人の立場を考えると,聴き手にはそうした経験を十分に理解してもらい,十分に共感して欲しいのではないか.しかし,事実としてデータでは,そうした状況において,語り手自身あるいは聴き手がそうした経験について笑うという事態が観察される.この問題に取り組むため,本研究では『日本語日常会話コーパス』を用いて,こうした事態について分析を行う.結果として,これらのふるまいは,嫌な経験の語りに対して同調的な応答をすること,あるいは同調的な応答を誘発する方法であり,嫌な経験の語りを過剰に深刻なものとして扱うことを回避する手段になっていると考えられる.

P4-9
病名における「-性」の分析―一般書籍との比較から―

発表者:東条 佳奈(大阪大)

共著者:相良 かおる(西南女学院大)・高崎 智子(西南女学院大)・麻 子軒(大阪大)・山崎 誠(国語研)

医療用語(病名)には、接辞性字音語基「-性」が使われる合成語が多いが、どのような語が「-性」の前要素となり、どのように病名を構成しているのかについては未だ詳らかでない。本発表では、実践医療用語辞書ComeJisyoSjis-1より作業用に抽出した見出し語7,194語を対象に「-性」を含む病名を調査し、前要素の分析を行った。また、BCCWJ「図書館・書籍」サブコーパスにおける「-性」の用例と比較し、特徴について検討した。その結果、病名における「-性」は、「先天性」「多発性」「急性」のように症状の現れ方を属性として示す(連体用法の)語が高頻度であるのに対し、書籍では「可能性」「必要性」のようにそれ自体が主語となる(体言用法の)語が高頻度であること、また、病名には「急性細菌性髄膜炎」のように「-性」が連続するものがあるが、書籍にはそうした例はなく、複合語としての使用もごく少数(約1割)しか見られないなどの違いが見られた。病名においては、一語で的確に症状を表現する必要があるため、「-性」を用いた細分化が行われていると考えられる。

P4-10
『分類語彙表』の質的拡張の試み

発表者:山崎 誠(国語研)

共著者:

『分類語彙表』は初版の刊行以来,日本語研究に利用されてきた。しかし,2004年に増補改訂版が刊行されて以来,さらなる増補は行われていない。本発表は,『分類語彙表』を研究に利用する上で,もっとも重要な課題の一つである,不採録語を減らすという観点から,語彙の拡充の方法を分類体系の見直しを中心に検討し,試案を提示するものである。語彙の拡充の候補は以下のとおりである。(1)助詞・助動詞などの機能語(2)固有名詞(固有表現)(3)外国語(4)メタ言語(5)句読点などの記号類(6)語断片(7)未知語。(1)~(3)は,意味の付与が可能なもの,(4)以降は,意味付与が可能でない(必要が無い)ものである。助詞・助動詞などの機能語は品詞相当と考え,0番台を与える(例えば格助詞「が」に分類語彙表番号0.1000を与えるなど)。固有名詞(固有表現)は,現在の分類体系をできるだけ維持するのであれば,内包的表現の所属する分類項目に位置付けるのが妥当であろう(「アカデミー賞」「グラミー賞」は「1.3682 賞罰」に置くなど)。メタ言語的用法は意味分類には反映させず,「用法」という別フィールドで属性を記述する。また,句読点,語断片,未知語は意味付与が不要という属性を与えて区別することを考えている。以上のような拡張で,ほぼ全ての語に何らかの分類語彙表番号を与えることが可能となる。

P4-11
日本語日常会話コーパスから見える会話場面と声の高さの関係性

発表者:石本 祐一(国語研)

共著者:

自発音声ではパラ言語情報や感情の影響によりピッチが様々に変動することが知られているが、日常生活の多様な状況を反映した音声データの不足により、自発音声のピッチの多様性について大規模な定量的分析を行うことが困難であった。国立国語研究所では,2016年より多様な種類の日常会話をバランス良く収録した大規模な日常会話コーパスとして『日本語日常会話コーパス』(CEJC)の構築を進めている。CEJCに収録される自発音声のうち50時間のデータを基に様々な会話場面における声の高さの違いを調べたところ、子どもや配偶者、父母といった家族に対しては低く、取引先や客など丁寧さが必要な相手や友人には高い声で話していることが示された。また、発話の直接の向け先だけではなく、会話場面に同席している参与者の属性によっても声の高さが変わることが観察された。

9月9日(水)クロージング 16:00~17:00 (zoom)

コーパス利用申込

「中納言」利用申込

copusmenu_title

  • 現代日本語書き言葉均衡コーパス
  • 日本語話し言葉コーパス
  • 日本語歴史コーパス
  • 近代語のコーパス
  • 国語研日本語ウェブコーパス
 
 

event

lrw

blank_title

unidic_btn

chamame_btn

wlsp_btn

trycopus_title

syonagon_btn

chunagon_btn

kotonoha_btn