昨日は新年2回目のワークショップでした。
今回は運営を手伝ったので朝の8時45分に大手町に集合。6時起きは眠い。
まだ雪が残ってた。
今回のテーマは「評価」。これまでのワークショップでいかにアンフェアな評価が行なわれているかについてぼくは怒ってきたんだけど、どうも伝わってないようなので当番のアイデアに乗っかって自分がやりたいことも詰め込んでもらった。
そもそも評価するというのはとても難しいことですよね(管理職の人はよくわかると思うけど)。自分の好みやその時の気分みたいなことを排除して、できるだけ正確かつ公平な評価をするのは簡単なことじゃない。
だからこそ(全部はムリでもできるだけ)説明可能な評価基準を設けるべきだし、そこにダブルスタンダードを認めてはいけない。
もっともプロ野球選手の評価でさえまだまだ試行錯誤をしてるくらいなので、成績が数字にほとんど現われない世界では、正しい評価というのは不可能に近い。なのでまずは評価が難しいことをちゃんと理解して、その上でどういう評価をすれば――それは伝え方も含めて――相手が「納得」できるかを考えるところから始める必要がある。
(よく評価基準に「納得性」を挙げる人が多いけど、大事なのは評価者と被評価者の間の「納得感」であって、評価者が納得したかどうかなんて些末な話)
そういう評価者としての心得みたいなことがひとつ。
もうひとつは評価を受ける側の話で、上記の通り人の評価なんてものはいい加減なものなので、相手の評価基準を明らかにしないで結果だけを受け止めるのは非常にバカげている。会社の人事評価にしても、就活生の入社試験にしても、あるいはAmazonのレビューなんてのも含め、ぼくらはいろんなところで評価を受ける立場にある。
タバコを吸うから減点? 自分と同じ大学だから高評価? 自分が嫌いな作品だから「参考にならなかった」に投票? そういう評価が日常的に行なわれてるので、必要以上に重く受け止めるとムダなストレスを抱えることになる。
数字もじつにいい加減。「平均と分布」については過去にブログにも書いたことがあるけど、平均でわかることはじつに少ない。データの詳細な内訳を見ないと、数人の過剰な採点によって平均値は簡単に上下する。
あるいは選挙の際によく言われる「一票の重み」みたいなものもそうだし、複数の採点者がいる場合はその人ごとに「1点の重み」がちがうので、偏差値に直すなどしてきちんと指数化して比較しないと正しい結果は見えてこない。
今回の当番には以下のブログを紹介しました。
100点はすごいんだけど、平均点が90点のテストでの100点と、平均点が50点のテストでの100点ではすごさがちがうわけで、そんなのは受験戦争にかり出されたぼくらには周知のことですよね。
そういう評価の実態を知っておけば必要以上に落ち込むことはないし、ぬか喜びをすることも減らせると思うのです。
前置きが長くなったけど、そういうことを狙ってワークショップを企画・設計しました。
当番はこっしーとトモ。
過去のワークショップの評価を100点満点でつけてもらって、それぞれの評価基準を明らかにしながら、それぞれの基準がぜんぜんちがうことや、当事者だったりすると余計なバイアスがかかることを確認したんだけど、その前に座学として偏差値や多変量解析(今回はコレスポンデンス分析)についてのレクチャーをしてもらった。できてたかどうかはさておき。
このへんも過去のワークショップへの不満の改善を試みていて、朝集合して「さあ今日は○○をやってみましょう!」という自己啓発セミナー色の強いのはやめて、ちゃんとスキルアップに繋がったり、自分のこれまでの常識や振る舞いについて再考する機会にするために、知識を入れて(座学)、実践する(ワークショップ)という構成にしてみた。
それぞれが自分の採点基準や点数の根拠について書いてもらい、発表する。ここで評価者としての自分がいかに客観性に欠けているかについて自覚してもらう。
とみーが過去のワークショップでのウラさんの評価手法を見て、そこからしっかり学んでたのは発表を聞いててうれしかった。素晴らしい。
次にデータを集計したり、可視化したりしながら、評価者それぞれのちがいやいい加減さについて把握する。可視化は大事ですよね。
偏差値化とか評価幅とかはExcelで簡単にできるのでオススメです。
お昼はこんな弁当。
午後は午前中に学んだことを踏まえて、できるだけ客観的な評価ができるかの実践。何人かにプレゼンしてもらって、その評価をみんなでつける。事前に評価基準を書いてもらい、それに基づいて評価してもらった。
このへんは先に基準を発表させて、そこでツッコミを入れるなりして修正したほうがいいんだけど(じゃないとじっさいそうなったように感覚的な基準のまま評価することになる)、まあ難しいだろうと思って黙っといた。それでなくても偏差値とか標準偏差とか多変量解析とかコレスポンデンス分析とか聞き慣れない言葉にみんな混乱してたしね。
5人がプレゼン、みんなが「説得力」の観点で評価。
そもそも「説得力」という感覚的なものをいかに妥当で、納得感のある基準で採点(評価)できるかって話なんだけど、あとで開示してもらったみんなの基準には「行ってみたいと思った」(地理的な公平さに欠ける)とか「自分が知らなかった」(自らの知識の偏りは無視?)とか、お前のさじ加減ひとつやんけというのが多かった。まあそんなもんだよね。ちなみにぼくは「実体験に基づいているか」と「具体的な事例が挙げられていたか」を基準として、3分でというルールだったので時間オーバーした人――全員したのでほとんど無意味だったんだけど――は減点した。
お互いの基準のギャップを意識するために、人力でポジショニングマップを作ってみた。これは当日のランチタイムに軌道修正したひとつ。
AさんとBさんの採点基準が近ければ、少なくとも偏差値かした状態では同じ採点の傾向が見られるんじゃないかという仮説と検証をやったわけです。
以下が採点結果。
| 評価者/評価対象 | 1人目 | 2人目 | 3人目 | 4人目 | 5人目 | 最大値 | 平均 | 最小値 | 標準偏差 |
|---|---|---|---|---|---|---|---|---|---|
| タケ | 40 | 55 | 75 | 55 | 100 | 100 | 65.0 | 40 | 20.74 |
| こっしー | 60 | 50 | 60 | 75 | 60 | 75 | 61.0 | 50 | 8 |
| たつ兄 | 55 | 75 | 65 | 45 | 85 | 85 | 65.0 | 45 | 14.14 |
| トモ | 78 | 78 | 68 | 66 | 80 | 80 | 74.0 | 66 | 5.80 |
| とみー | 33.3 | 58.3 | 50 | 75 | 41.6 | 75 | 51.6 | 33.3 | 14.35 |
| ゲン | 73 | 74 | 82 | 48 | 68 | 82 | 69.0 | 48 | 11.42 |
| ナベ | 70 | 85 | 70 | 60 | 75 | 85 | 72.0 | 60 | 8.12 |
| ウライ | 80 | 70 | 55 | 60 | 75 | 80 | 68.0 | 55 | 9.27 |
| おおつか | 70 | 80 | 50 | 60 | 80 | 80 | 68.0 | 50 | 11.66 |
| 藤田 | 85 | 80 | 65 | 85 | 90 | 90 | 81.0 | 65 | 8.60 |
| 河野 | 70 | 65 | 65 | 65 | 73 | 73 | 67.6 | 65 | 3.32 |
| 平均値 | 64.9 | 70.0 | 64.1 | 63.1 | 75.2 |
ぼくも採点したんだけど、標準偏差が3.3とぜんぜんばらけてない。だいたい20~30点くらいの幅で採点するつもりだったんだけど、3分でしかも説得力という観点で評価すると意外と差がつかなかった。
それを偏差値化したのがこちら。
| 評価者/評価対象 | 1人目 | 2人目 | 3人目 | 4人目 | 5人目 |
|---|---|---|---|---|---|
| タケ | 38 | 45 | 55 | 45 | 67 |
| こっしー | 49 | 36 | 49 | 68 | 49 |
| たつ兄 | 43 | 57 | 50 | 36 | 64 |
| トモ | 57 | 57 | 40 | 36 | 60 |
| とみー | 37 | 55 | 49 | 66 | 43 |
| ゲン | 54 | 54 | 61 | 32 | 49 |
| ナベ | 48 | 66 | 48 | 35 | 54 |
| ウライ | 63 | 52 | 36 | 41 | 58 |
| おおつか | 52 | 60 | 35 | 43 | 60 |
| 藤田 | 55 | 49 | 31 | 55 | 60 |
| 河野 | 57 | 42 | 42 | 42 | 66 |
| 合計 | 494 | 532 | 453 | 457 | 564 |
ポジショニングマップにしてみた。藤田さん以外の事務局が寄ってるのは興味深い。藤田さんは事務局内の異端児ということか(でもこのへんはわりと予想通りというか、とくに不思議はないね)。
ここから軸の特徴をどう読み取るかがいちばん難しくて楽しい作業なんだけど、それはまた別の機会に。
今回のワークショップは、自分がハンドリングしたからというのもあるんだけど――すでにそこにバイアスがかかっていて冷静な評価ができてないんだけど――――かなり満足してます。参加してくれた連中の反応が気になるけど、やりたいこととその手段の選択という点では非常に良かった。
もっとも新しいことにチャレンジするリスクとして、当日の進行には問題点も多かった。ただそれは前々から「失敗が許される場」と言ってるように、べつにいいと思うんですよね。今回も失敗したり苦戦してた部分の大半は事前に予想できていたけど(いちおう指摘もしたし、だけどその準備が不十分なのもわかってたけど)、まあ「わかってないことがわかる」という経験は恥をかかなきゃできないし、そのチャンスは当番として運営してみた人の特権だから。
ダメなところというのもやってみたからわかったというのもあるし、次回以降に反映されていけばそれでいい。塾生同士で経験が伝承されてないのはどうかと思うけど。
安直な自分探し的なテーマで一日使って「なんとなく気持ちよくなって終わる」んじゃなくて、自分のダメなところを自覚して、それを改善するきっかけになるのが理想なので、今回のワークショップがそういう機会になればいいなと思います。
こういうのは社内研修でも使えそうですね。
[追記]
会場の光量が微妙だったので、今回はスライドを白背景と黒背景のふたつのバージョンを用意していた。こういう準備が大事。
[さらに追記]
M-1の採点についてはぼくもサンプルとして手元で偏差値化したりしてみたんだけど、どうも標準偏差の値がちがうんだよなあ。
Excelの関数(STDEVP)で出してるんだけどね。
[さらにさらに追記]
以下、関係者のブログ記事。
当番のレポートはこちら。


























感想メール