fivsevn-devlog

memo|マイマイカブリ情報探索メソッド(草案)

4月12日开始做的文章,拖到现在还没做完。 半成品先放这里。

Epigraph

以日本食蜗步甲为例,简单而通用的爽玩指南。


Essay

本文所涉及到的生物,在物种分类信息中的位置如下: 编辑图片

本博客涉及生物内容的撰写习惯,请参考往期文章: 锯锯鱼

我们在生活当中遇到的问题,有很大一部分都可以归结为“信息检索(information retrieval,IR)”的问题。现实生活中,答案往往不是直接给出(或者说,“直接给出的答案”要么我们普通人很难直接接触到、要么需要付出一些事先无法明确的代价、要么全凭运气),而是需要我们从信息当中尝试找出线索、联缀线索并进行推理。在这个过程中,我们需要:

❓怎么查❓👉 检索策略  
❓该信谁❓👉 筛选能力  
❓该信多少❓👉 评估机制  
❗️下次还要❗️👉 记录系统  

对于寻常百姓的衣食住行而言,拥有一定的信息检索能力意味着可以解决不少日常生活当中的问题;而对于持有某种爱好的人来说,“信息检索”更是一种乐在其中的过程。相信我,系统地搭建一套适合自己的信息检索方法,并在实践中不断完善,这一定是人生清单上排名前十的重要的事。

本文以昆虫爱好者想要爽玩マイマイカブリ为例,主要提供我个人的检索思路的分享;本篇当中检索到的具体的网站等信息可能会随着时间的推移而失效,但是,基础的方法论是比较稳固的。我们可以根据各自的领域和需求,以此为基础进行修改和完善,最终形成一套最适合自己的方法和体系。

在“明确自己的需求”这一条件下,我建议,可以采用 ChatGPT 等 AI 助理协助进行方法论的优化。

似乎有必要事先明确的术语定义:

检索(Retrieval):本文所说“检索”,指的是在搜索引擎、网站或数据库中输入关键词进行查找的操作,简单来说就是“在Google里搜一下”。因为这个词可能对于一部分人来讲不是很直观,但是作为术语来讲经常会用到,在这里明确一下并不是坏事。
我想,再简单的事,既然想到了,我们就一起回顾一下!一些概念可能对于一部分人来讲是理所当然,但是对于另一部分人来讲略显陌生;我认为,在日常交流的轻松场合下,不应当把他人的“应该懂”作为一种默认。也许我们确实没有“解释的义务”,但是我们可以主动选择去承担下这份“解释的责任”(限度范围内即可,并非必须,也不用很有压力,适当表达善意就行!)。对于爱好者乃至专业人士而言,基础也是在反复确认基本定义的过程当中逐渐稳固的。本博客的其他文章当中如果有任何不甚明确的内容,也请提醒我进行补充说明。


1. 入手途径【野采 / 线下购买 / 线上购买】

想要爽玩——

👉 1.1 野采  
👉 1.2 线下购买  
👉 1.3 线上购买  

1.1 野采(了解物种信息 + 检索野采实绩)

有明确目标的野采,主要问题就是“哪里有?”。大方向分为:

🧐 1.1.1 了解物种信息(不详述)  
🧐 1.1.2 检索野采实绩(Channel A + B + C)
  👉 Channel A:通用搜索引擎检索(Search Engine Pass)
  👉 Channel B:定向网站精查(Site-Specific Search)
  👉 Channel C:间接链路探索(Relational Discovery)
  🧐 一些通用的检索思路:检索词优化(query refinement)+批判性评估(critical evaluation)  
  🧐 实践:以マイマイカブリ野采情报收集为例!

🧐1.1.1 了解物种信息(不详述)

了解物种本身的背景信息、习性等。
采用通常的文献检索方式。请注意文献来源,Wiki 等百科请注意查证修改履历等信息。


🧐1.1.2 检索野采实绩(Channel A + B + C)

检索其他人的野采实绩进行分析和研究。这里介绍信息检索的三大主要渠道。

👉 Channel A:通用搜索引擎检索(Search Engine Pass)

尝试 Google 或者其他搜索引擎。

记得个别平台可以单独去搜索!
如果想不到有什么平台可以搜的话,可以按照以下分类去筛查。
示例仅举例帮助理解网站类型,并非我常用的网站。我常用的数据库会在开发日志另外刊载。

编号 网站类型 示例 信息特点
1 官方机构 / 政府站点 nature.go.jpenv.go.jpusgs.gov 权威、可信,但更新慢
2 学术数据库 / 文献库 Google Scholar、J-STAGE、CNKI、PubMed 准确、有来源,但语言门槛高
3 博物馆 / 科研单位 Smithsonian、国立科学博物馆、昆虫标本馆等 高质量信息,但网页结构复杂
4 商业购物网站 Amazon、Yahoo Japan、淘宝、乐天 商品为主,有实用参数、评价,偏重销售导向
5 SNS / 社交媒体平台 Twitter/X、Instagram、Facebook、微博等 快速传播、观点丰富,但偏见强
6 论坛 / 讨论区 Reddit、2ch、百度贴吧、insectforum.jp 爱好者经验、含实用信息,但真实性不一
7 匿名板 / 二次元社区 4chan、ふたば(ふたば☆ちゃんねる)等 更真实/极端的用户经验,但筛选难度高
8 视频网站 YouTube、Bilibili、ニコニコ動画、TikTok 实物展示、操作演示为主,评论区可能有补充
9 问答社区 / 众包平台 Quora、知乎、StackExchange、知識袋 聚焦问题解答,通常含争议与多角度观点
10 Wiki / 百科型网站 Wikipedia、Pixiv百科、百度百科 快速了解背景概念,但细节容易过时或有偏
11 品牌官网 / 制造商网站 Snow Peak、Evernew、学术出版社官网等 参数权威,营销内容多,常用作事实核查
12 部落格 / 私人网站 Ameblo、はてなブログ、个人博客、Notion页 爱好者记录、失败经验、偏好明显
13 商品比价 / 数据网站 Kakaku.com、Keepa、camelcamelcamel、価格.com 客观价格变动数据,有助购买决策
14 下载类资源站 Archive.org、Open Science Framework 等 获取文献、历史资料、图鉴等文档原始版本
👉 Channel C:间接链路探索(Relational Discovery)

看引用、点链接、追踪同类发帖、看标签页等等等等,通过这些结构化关联路径发掘隐藏资料。
简而言之,一篇内容看完先不要把网页关掉,留意一些关联信息。


🧐 一些通用的检索思路(检索词优化+批判性评估)
👉 【检索词优化(Query Refinement)】  
  ➡️ 增加限定词(Query Expansion)  
  ➡️ 同义词切换(Synonym Substitution)  
  ➡️ 关键词组合调整(Boolean Query Adjustment,布尔查询调整)  
  ➡️ 去除歧义词(Disambiguation)  
  ➡️ 多语言切换(Multilingual Retrieval)  
  ➡️ 可尝试切换代理网络(Proxy Switching / Geolocation-based Retrieval)  
  ➡️ 其他(Other Techniques)  
    
👉 【批判性评估(Critical Evaluation)】  
  ➡️ 可靠性(Credibility Assessment)  
  ➡️ 偏见(Bias Detection)  
  ➡️ 逻辑性(Information Validation)  

👉 【检索词优化(Query Refinement)】

假设我们一开始检索的是【Google搜索:マイマイカブリ
我们可以尝试变换各种关键词进行搜索(query refinement),例如:

以上方法当然也有可能没啥用,但是建议都尝试一下。这是一个不断试错的过程,一开始便过于功利地追求一个结果的话,很可能会“欲速则不达”。别急就对了。

👉 【批判性评估(Critical Evaluation)】

重点关注检索到的内容的背景信息。以搜索到的昆虫采集内容为例,这篇内容的创作背景可能是:

【父母写的亲子活动记录】【学校组织的昆虫采集活动】【昆虫爱好者组织的自费活动】  
【喜欢昆虫的个人爱好者】【喜欢步甲的个人爱好者】【喜欢参加社交活动的人的日记】  
【涉及到该物种的研究笔记】【NPO 的宣传稿】【营利性机构的收费活动宣传】  

等等。

判断方法:


Source 1

作为示例,这里给一些有关【マイマイカブリ野采情报】的收集过程。

Step1

总之先随意 Google 一下试试看。 Google 搜索:マイマイカブリ 採集

Step2

如果一开始检索内容较少,那么我们的重点就放在“尽量多多挖掘”,这一点毋庸置疑。
如果一开始检索内容较多,那么我们的重点就可以调整为“一边搜索一边整理”。如果只是挨个儿去阅览一条一条的结果,会变成内容的无序堆叠;就好比,我们只是不停地走,走过了很多地方,但是始终没有画出一个地图,把我们走过的这些地方标记到地图当中去。内容的无序堆叠会带来一些问题——看到后面忘记前面、重复的内容可能会占据过多的记忆空间、越看越疲劳、想知道更多更深入的内容但是不知道要看到什么时候才能找到,等等。我们的算力始终是有限的,这时候,我们就需要提高数据的利用效率。针对一些高频出现的要素,不论是网站、作者、团体机构等等具体的要素,还是某种模式、语言风格、视觉效果等等抽象的要素,都可以作为某种集合的标准,简而言之,就是先粗略地去分类;类目逐渐增多之后,就可以考虑“把类目进行分类”,也就是进行目录的整理;再往后,就是对目录进行优化,调整出合适的架构。说到这里,我们可能已经意识到,成长过程中我们都多少接受过类似的方法教育;问题在于,我们实际上对这个方法的理解程度和运用程度是多还是少。

Ameba アメーバブログ

Ameba 搜索:マイマイカブリ

请以这样的思路作为参考,进行进一步的探索!

FC2 Blog

用 Google 的“site:”命令搜索:site:blog.fc2.com マイマイカブリ

资料收集的第一要义是耐心。如果是学术研究的话,理论上讲,不论多寡,所有相关的先行文献都应该彻查一遍。从操作上讲,“探索未知”很大一部分其实是在“探索已知”。

Hatena はてなブログ

用 Google 的“site:”命令搜索:site:hatena.blog マイマイカブリ

可以推测虫佬的博客大致集中在 Ameba 和 FC2 上面。

Note ノート

Note 搜索:マイマイカブリ

Livedoor
楽天ブログ
一些博客收集平台

请以此为思路继续探索!

其他媒体平台

更多媒体平台靠持续积累!

Step3

Step4


1.2 线下购买

线下情况比较综合,这里不限于购买环节,简单介绍一些我在出行时候的个人习惯,可能无法涵盖大多数人的需求,仅作观点的分享。

1.3 线上购物

综合性购物平台
专门网站

搜虫屋的线上网站 重点:配送方式、付款方式、邮费等等

2. 玩家交流

昆虫论坛

Line 公开群组

其他文化圈的玩家群