MP3→MP4 根据音乐自动生成视频

Qter · 发表于 2024-6-2 16:21:23

https://juejin.cn/post/7155733036791775269
工具&框架🚧 『Video Killed The Radio Star』根据音乐自动生成视频github.com/dmarx/video…
Video Killed The Radio Star 是一个自动音乐视频制作器，给定一个 MP3 或 Youtube URL 就可以制作视频。它的原理是：
① 根据该文本提示生成一个图像（使用 stable diffusion）。
② 将生成的图像作为 init_image，与文本提示重新组合，生成与第一个图像相似的变化。这将产生一个基于原始文本提示的极其相似的图像序列。
③ 图像被智能地重新排序，以找到这些帧的最平滑的动画序列。
④ 根据需要重复这个图像序列来填充动画的时间。

🚧 『code996』Git项目的commit时间分布github.com/hellodigua/…
hellodigua.github.io/code996/
code996 是一个分析工具，它可以统计 Git 项目的 commit 时间分布，进而推导出项目的编码工作强度。
它可以帮助你分辨 996 的公司和行为并远离它，具体包括：在入职的当天即可知道新公司的加班情况如何、揪出公司里的卷王、对比不同项目的加班强度。

🚧 『transfer-learning-time-series』迁移学习时间序列预测github.com/Nixtla/tran…
迁移学习指的是在一个大数据集上预训练一个大模型，然后在以后的其他数据上迁移使用它（只需要少量训练或者不需要训练）。这个项目对于时间序列的预测，讲解如何使用迁移学习技术快速得到精准的预估应用模型。

🚧 『Dagger』对实时流数据进行有状态处理github.com/odpf/dagger
odpf.github.io/dagger/
Dagger 是一个基于 Apache Flink 的云原生框架，易于使用且基于代码配置，用于数据的有状态处理。有了Dagger，处理数据流时不需要编写自定义应用程序或复杂的代码，可以直接写SQL查询和UDFs来完成流数据的处理和分析。

🚧 『dagu』带web界面的计划任务管理工具github.com/yohamta/dag…
dagu 是另一个带 web 界面的任务管理器，可以作为 Cron 的替代品，且具有更多的功能：① 单个二进制文件，安装方便；② 支持Cron表达式安排DAG的执行时间；③ 定义相关工作之间的依赖关系，并将它们表示为一个单一的DAG（执行单位）。

博文&分享👍 『Topology for Computing』计算拓扑学 · 电子书www.cambridge.org/core/books/…
本书由斯坦福大学教授、计算机科学家 Afra J. Zomorodian 编写，目标是让非专业人士能够掌握并参与当前的计算拓扑研究，加强拓扑学与计算机科学的互动，帮助更多有算法技能的人流利地使用拓扑语言。
书籍从计算的角度讲解拓扑，介绍了基本的数学概念、算法与数据结构，以及结合作者的博士论文介绍了一些最新的研究成果，并重点关注拓扑概念在解决计算机科学问题中的应用，例如计算机图形学、机器人学、结构生物学和化学。

Part One - Mathematics（数学）
- 2 - Spaces and Filtrations（空间和过滤）
- 3 - Group Theory（群论）
- 4 - Homology（同源性）
- 5 - Morse Theory（莫尔斯理论）
- 6 - New Results（新结果）
Part Two - Algorithms（算法）
- 7 - The Persistence Algorithms（持久性算法）
- 8 - Topological Simplification（拓扑简化）
- 9 - The Morse-Smale Complex Algorithm（Morse-Smale 复数算法）
- 10 - The Linking Number Algorithm（链接数算法）
Part Three - Applications（应用）
- 11 - Software（软件）
- 12 - Experiments（实验）
- 13 - Applications（应用）

👍 『CSCI 601.771: Self-supervised Models』约翰霍普金斯大学 · 自监督模型课程self-supervised.cs.jhu.edu/
大规模自我监督（预训练）模型的兴起，已经改变了各种数据驱动的领域，例如自然语言处理、计算机视觉、机器人技术和医学成像。这门高级研究生课程旨在提供相关问题的whole picture：发展历程，最新成功案例的深入研究，技术的社会、安全、法律和环境影响等。
课程要求学生必须在深度学习、机器学习、人工智能和自然语言处理方面拥有丰富的经验，必须熟悉线性代数、统计和概率，熟悉学习模型的设计和实现（PyTorch、Tensorflow、Keras、JAX等），必须习惯于阅读论文并从论文中提取关键概念和想法。

Pretraining Language Models（预训练语言模型）
Architectures（架构）
In-context Learning（情境学习）
Social Harms（社会危害）
Memorization and Privacy（记忆和隐私）
Pretraining Coding Models（预训练编码模型）
Pretraining Vision-Language Models（预训练视觉语言模型）
Pretraining Speech/Audio Models（预训练语音/音频模型）
Retrieval from Memory（从内存中检索）
Evolving Memory（不断发展的内存）
Generalism（通用）
Calibration（校准）
Environmental Impact（对环境造成的影响）

数据&资源🔥 『Line Segment Detection Papers』线段检测文献资源列表github.com/lh9171338/L…

研究&论文

公众号后台回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.10.04 『3D重建』 MBW: Multi-view Bootstrapping in the Wild
2022.10.02 『图学习』 Gradient Gating for Deep Multi-Rate Learning on Graphs
2022.09.26 『生成模型』 Learning to Learn with Generative Models of Neural Network Checkpoints

⚡ 论文：MBW: Multi-view Bootstrapping in the Wild论文时间：4 Oct 2022
领域任务：3D Reconstruction, Semi-supervised 2D and 3D landmark labeling, 3D重建，半监督2D和3D地标标记
论文地址：arxiv.org/abs/2210.01…
代码实现：github.com/mosamdabhi/…
论文作者：Mosam Dabhi, Chaoyang Wang, Tim Clifford, Laszlo Attila Jeni, Ian R. Fasel, Simon Lucey
论文简介：Our Multi-view Bootstrapping in the Wild (MBW) approach demonstrates impressive results on standard human datasets, as well as tigers, cheetahs, fish, colobus monkeys, chimpanzees, and flamingos from videos captured casually in a zoo./我们的Multi-view Bootstrapping in the Wild（MBW）方法在标准的人类数据集以及老虎、猎豹、鱼、疣猴、黑猩猩和火烈鸟的视频中展示了令人印象深刻的结果。

论文摘要：在不受约束的环境中给有关节的物体贴上标签有广泛的应用，包括娱乐、神经科学、心理学、生态学和许多医学领域。除了最常见的衔接物体类别（如人类），并不存在大规模的离线标记数据集。在视频序列中手工标记这些地标是一项艰巨的任务。经过学习的地标检测器可以提供帮助，但如果只从少数例子中训练，则容易出错。训练细粒度检测器的多摄像机系统在检测这种错误方面显示出了巨大的前景，允许自监督的解决方案，只需要一小部分视频序列进行手工标记。然而，这种方法是基于校准的摄像机和刚性几何，使其昂贵，难以管理，并且在现实世界的场景中不切实际。在本文中，我们通过将非刚性三维神经先验与深度流结合起来，从只有两到三个未经校准的手持摄像机的视频中获得高保真地标估计，从而解决了这些瓶颈问题。只需几个注释（占帧数的1-2%），我们就能产生与最先进的完全监督方法相媲美的二维结果，以及其他现有方法无法实现的三维重建。我们的Multi-view Bootstrapping in the Wild（MBW）方法在标准的人类数据集以及老虎、猎豹、鱼、疣猴、黑猩猩和火烈鸟的视频中显示了令人印象深刻的结果。我们发布了MBW的代码库以及这个具有挑战性的动物园数据集，该数据集由尾端分布类别的图像帧及其相应的二维、三维标签组成，由最小的人为干预生成。

⚡ 论文：Gradient Gating for Deep Multi-Rate Learning on Graphs论文时间：2 Oct 2022
领域任务：Graph Learning，图学习
论文地址：arxiv.org/abs/2210.00…
代码实现：github.com/tk-rusch/gr…
论文作者：T. Konstantin Rusch, Benjamin P. Chamberlain, Michael W. Mahoney, Michael M. Bronstein, Siddhartha Mishra
论文简介：We present Gradient Gating (G2^22), a novel framework for improving the performance of Graph Neural Networks (GNNs)./我们提出了梯度门控（G2^22），这是一个改善图式神经网络（GNN）性能的新框架。

论文摘要：我们提出了梯度门控（G2），这是一个用于提高图式神经网络（GNNs）性能的新型框架。我们的框架是基于对GNN层的输出进行门控，其机制是在底层图的节点间进行信息传递的多速率流动。利用局部梯度来进一步调节信息传递的更新。我们的框架灵活地允许人们使用任何基本的GNN层作为包装，围绕它建立多速率梯度门控机制。我们严格证明了G2缓解了过度平滑的问题，并允许设计深度GNN。实证结果表明，所提出的框架在各种图学习任务上取得了最先进的性能，包括在大规模异质图上。

⚡ 论文：Learning to Learn with Generative Models of Neural Network Checkpoints论文时间：26 Sep 2022
领域任务：生成模型
论文地址：arxiv.org/abs/2209.12…
代码实现：github.com/wpeebles/g.…
论文作者：William Peebles, Ilija Radosavovic, Tim Brooks, Alexei A. Efros, Jitendra Malik
论文简介：We explore a data-driven approach for learning to optimize neural networks./我们探索了一种数据驱动的学习方法，以优化神经网络。

论文摘要：我们探索了一种数据驱动的学习方法，以优化神经网络。我们构建了一个神经网络检查点的数据集，并对参数进行生成模型的训练。特别的，我们的模型是一个条件扩散transformer，给定一个初始输入参数向量和一个提示的损失、误差或回报，预测实现预期指标的参数更新的分布。在测试时，它可以在一次更新中用未见过的参数优化下游任务的神经网络。我们发现，我们的方法成功地生成了广泛的损失提示的参数。此外，它可以对多模态的参数解决方案进行采样，并具有有利的缩放特性。我们将我们的方法应用于不同的神经网络架构和监督与强化学习的任务。

我们是 ShowMeAI，致力于传播AI优质内容，分享行业解决方案，用知识加速每一次技术成长！
◉ 点击 日报合辑，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。
◉ 点击 电子月刊，快速浏览月度合辑。

作者：ShowMeAI
链接：https://juejin.cn/post/7155733036791775269
来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

		自动登录	找回密码
密码			立即注册

MP3→MP4 根据音乐自动生成视频

浏览过的版块