原推:@wojespn Lakers https://twitt…
Brett Winton: @NaveenGRao 我明白了(我想) 但我具体谈论的是偏好模型的大小(人择的词汇——其他人使用“奖励模型”)。 Anthropic 在扩大参数数量(至 50b)时获得了更好的结果 无法通过相对少量的 HF 数据进行平方。
原推:@NaveenGRao I get that (I thi…
Brett Winton: 关于人类反馈强化学习的问题 RL 偏好模型数据集(50k 数据点)与模型大小(50b 参数)的比率 与底层语言模型非常不同(1,500b 标记到 70b 参数) 为什么? 我是在比较苹果和橙子吗?
原推:question on reinforcement lea…
Brett Winton: @_BruceX_(RLHF 我指的是奖励/偏好模型)
原推:@_BruceX_ (by the RLHF I mean…
Brett Winton: @_BruceX_ 那为什么RLHF模型需要那么多参数呢? 在参数数量和用于训练模型的数据量之间的权衡方面,我有什么误解吗?从某种意义上说,这个比率不应该是可以概括的吗?
原推:@_BruceX_ Then why does the R…
Brett Winton: 这只是一个经济问题吗? (收集人类反馈是昂贵的) 这不会导致偏好模型过度拟合吗?
原推:Is it just a matter of econom…
Brett Winton: @NaveenGRao 试图弄清楚/了解公司将如何优化底层语言模型和强化学习调整之间的预算……
原推:@NaveenGRao Trying to figure …
Valve 等了 15 个月才修补高严重性漏洞。黑客突袭
(信用:阀门) 研究人员发现了四种游戏模式,可以成功利用一个严重…
你可能错了事情是如何改变的
去年我把这篇文章写成一篇科学期刊的论文,但要发表它需要让它变得无…
今天的眼睛糖果:Maxfield Parrish 景观
Autumn Brook ,Maxfield Parrish,船…
Daily Crunch:Atlassian 在公开测试版中提供 Jira Product Discovery
要在太平洋标准时间每天下午 3 点向您的收件箱发送 TechCr…
报道称,推特从之前被禁的账户中赚取了数百万美元
Twitter 仅从少数一些最臭名昭著的用户那里赚取了数百万美元…
一些最好的创始人是“难相处”的人
在参考检查两极分化的企业家时要寻找什么 在对初创公司 CEO 进…
一天一页的魔力
1979 年,一天一页的日历诞生了。它基本上是一本书,但用户每天…
SpaceX 首次尝试同时启动所有 33 个星际飞船引擎,结果喜忧参半
SpaceX 已经完成了星际飞船的首次全静态点火测试,即使下个月…
女性创立的 AI 初创公司看到风险投资的增长
根据 Crunchbase 的数据,在过去几年中,对至少有一名女…
Lyft 股价因第一季度业绩指引疲弱而下跌
Lyft 在第四季度的收入表现出色,但这不足以安抚投资者对这家叫…
SpaceX 不希望乌克兰使用 Starlink 控制军用无人机
Elon Musk 的 SpaceX 可能愿意为乌克兰提供 St…
我最有价值的季节
上个月,我应邀去白宫附近的欢乐时光,所以我收拾好东西后,大约 5…
简单的个人信息选择退出
如果您希望公司停止出售您的个人信息,请安装来自消费者报告的名为P…